Forum Debian Users Gang

Karoll · 2023-07-28 19:00:56

Chcialem sciagnac wybiorczo kilka plikow .pdf z okreslonej domeny (https://cheatography.com/explore/). Moglbym dolaczyc liste komend , ktore probowalem, wszystko na nic.
Moze ktos ma jakies dobre doswiadczenia w tym zakresie?

Ostatnio edytowany przez Karoll (2023-08-03 11:43:06)

megabajt · 2023-07-31 11:17:43

Jeżeli wybiórczo, to polecam https://addons.mozilla.org/pl/firefox/addon/cliget/

Karoll · 2023-07-31 12:09:30

Dzieki za linka, innym dodatkiem FF jest "AddThemAll" Niestety to wszystko kiepsko dziala.
Ludzie pisza skrypty, uzywaja Pythona. Mysle ze to jest zadanie dla webmastera.
Pozdro.

mati75 · 2023-07-31 20:05:45

Z czym jest problem?

Kod:

wget https://cheatography.com/kontodonauki/cheat-sheets/genetyka-4-dziedziczenie-mendla/pdf/ -O genetyka-4-dziedziczenie-mendla.pdf
--2023-07-31 20:04:39--  https://cheatography.com/kontodonauki/cheat-sheets/genetyka-4-dziedziczenie-mendla/pdf/
Translacja cheatography.com (cheatography.com)... 178.79.154.177
Łączenie się z cheatography.com (cheatography.com)|178.79.154.177|:443... połączono.
Żądanie HTTP wysłano, oczekiwanie na odpowiedź... 200 OK
Długość: nieznana [application/pdf]
Zapis do: `genetyka-4-dziedziczenie-mendla.pdf'

genetyka-4-dziedzic     [ <=>                ] 189,99K  1,00MB/s     w 0,2s    

2023-07-31 20:04:41 (1,00 MB/s) - zapisano `genetyka-4-dziedziczenie-mendla.pdf' [194553]

Normalnie się pobiera.

Karoll · 2023-07-31 22:58:40

@mati75
Zeby pobieralo same PDF-y a nie rekursywny mirroring calej domeny.

mati75 · 2023-07-31 23:54:20

Kod:

pup

powinno pomóc tylko, trzeba mape strony przygotować. 4 linijkowy skrypt w bashu wystarcza do ściągnięcia całej strony.

~~~edyta~~~~

da się prościej https://cheatography.com/sitemap.xml

Ostatnio edytowany przez mati75 (2023-07-31 23:56:13)

Karoll · 2023-08-01 15:50:16

Ja nie chce calej strony lub plikow .jpeg, tylko wszystkie pliki .PDF z domeny "cheatography.com"
Bedzie ich tam ponad 1000.

mati75 · 2023-08-01 17:57:07

Dałem wędkę żeby rybe złowić sobie samemu.

Kod:

wget https://cheatography.com/sitemap.xml -O- | grep loc | grep -v media.cheatography.com | sed s%"<loc>"%%g | sed s%"</loc>"%%g

wyświetli wszystkie url na tej stronie dopisanie do każdego na końcu /pdf da pobranie pdfa

Karoll · 2023-08-01 19:39:38

Staram sie cos zlowic - ale ryby uciekly.

Kod:

mark@debian:/PDFy$ https://cheatography.com/ericg/cheat-sheets/vi-editor/pdf 
bash: https://cheatography.com/ericg/cheat-sheets/vi-editor/pdf: No such file or directory

arecki · 2023-08-02 08:42:15

To nie ryby uciekły tylko rybak coś nie teges ;)

Kod:

wget https://cheatography.com/ericg/cheat-sheets/vi-editor/pdf/ -O cheat-sheets.pdf

i analogiczne cała reszta z sitemap.

megabajt · 2023-08-02 10:24:44

Kod:

#!/bin/bash

site="https://cheatography.com/sitemap.xml"   
urls="$(wget -qO- "$site" | \
                grep '^  <loc>' | \
                sed 's/^  <loc>//g' | \
                sed 's/<\/loc>/pdf/g' | \  
                tr -d '\r')"

for i in $urls; do
        filename="$(echo "$i" | \
                sed 's/https:\/\/cheatography.com\///g' | \
                sed 's/\//./g')"
        wget -O "$filename" "$i"     
done

Karoll · 2023-08-03 11:41:43

Obydwa sposoby tj, komenda Kol "arecki" i skrypt basha Kol "megabajt" dzialaja znakomicie! Z wyrazami szacunku za wiedze i wdziecznosci za poswiecony czas !!!
https://imgur.com/a/dvsEtZH

Forum Debian Users Gang

Ogłoszenie

#1 2023-07-28 19:00:56

Karoll - Użytkownik

( SOLVED) Wget i PDFy

#2 2023-07-31 11:17:43

megabajt - Użytkownik

Re: ( SOLVED) Wget i PDFy

#3 2023-07-31 12:09:30

Karoll - Użytkownik

Re: ( SOLVED) Wget i PDFy

#4 2023-07-31 20:05:45

mati75 - Psuj

Re: ( SOLVED) Wget i PDFy

Kod:

#5 2023-07-31 22:58:40

Karoll - Użytkownik

Re: ( SOLVED) Wget i PDFy

#6 2023-07-31 23:54:20

mati75 - Psuj

Re: ( SOLVED) Wget i PDFy

Kod:

#7 2023-08-01 15:50:16

Karoll - Użytkownik

Re: ( SOLVED) Wget i PDFy

#8 2023-08-01 17:57:07

mati75 - Psuj

Re: ( SOLVED) Wget i PDFy

Kod:

#9 2023-08-01 19:39:38

Karoll - Użytkownik

Re: ( SOLVED) Wget i PDFy

Kod:

#10 2023-08-02 08:42:15

arecki - Użytkownik

Re: ( SOLVED) Wget i PDFy

Kod:

#11 2023-08-02 10:24:44

megabajt - Użytkownik

Re: ( SOLVED) Wget i PDFy

Kod:

#12 2023-08-03 11:41:43

Karoll - Użytkownik

Re: ( SOLVED) Wget i PDFy

Stopka forum