Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Chcialem sciagnac wybiorczo kilka plikow .pdf z okreslonej domeny (https://cheatography.com/explore/). Moglbym dolaczyc liste komend , ktore probowalem, wszystko na nic.
Moze ktos ma jakies dobre doswiadczenia w tym zakresie?
Ostatnio edytowany przez Karoll (2023-08-03 11:43:06)
Offline
Jeżeli wybiórczo, to polecam https://addons.mozilla.org/pl/firefox/addon/cliget/
Offline
Dzieki za linka, innym dodatkiem FF jest "AddThemAll" Niestety to wszystko kiepsko dziala.
Ludzie pisza skrypty, uzywaja Pythona. Mysle ze to jest zadanie dla webmastera.
Pozdro.
Offline
Z czym jest problem?
wget https://cheatography.com/kontodonauki/cheat-sheets/genetyka-4-dziedziczenie-mendla/pdf/ -O genetyka-4-dziedziczenie-mendla.pdf --2023-07-31 20:04:39-- https://cheatography.com/kontodonauki/cheat-sheets/genetyka-4-dziedziczenie-mendla/pdf/ Translacja cheatography.com (cheatography.com)... 178.79.154.177 Łączenie się z cheatography.com (cheatography.com)|178.79.154.177|:443... połączono. Żądanie HTTP wysłano, oczekiwanie na odpowiedź... 200 OK Długość: nieznana [application/pdf] Zapis do: `genetyka-4-dziedziczenie-mendla.pdf' genetyka-4-dziedzic [ <=> ] 189,99K 1,00MB/s w 0,2s 2023-07-31 20:04:41 (1,00 MB/s) - zapisano `genetyka-4-dziedziczenie-mendla.pdf' [194553]
Normalnie się pobiera.
Offline
@mati75
Zeby pobieralo same PDF-y a nie rekursywny mirroring calej domeny.
Offline
pup
powinno pomóc tylko, trzeba mape strony przygotować. 4 linijkowy skrypt w bashu wystarcza do ściągnięcia całej strony.
~~~edyta~~~~
da się prościej https://cheatography.com/sitemap.xml
Ostatnio edytowany przez mati75 (2023-07-31 23:56:13)
Offline
Ja nie chce calej strony lub plikow .jpeg, tylko wszystkie pliki .PDF z domeny "cheatography.com"
Bedzie ich tam ponad 1000.
Offline
Dałem wędkę żeby rybe złowić sobie samemu.
wget https://cheatography.com/sitemap.xml -O- | grep loc | grep -v media.cheatography.com | sed s%"<loc>"%%g | sed s%"</loc>"%%g
wyświetli wszystkie url na tej stronie dopisanie do każdego na końcu /pdf da pobranie pdfa
Offline
Staram sie cos zlowic - ale ryby uciekly.
mark@debian:/PDFy$ https://cheatography.com/ericg/cheat-sheets/vi-editor/pdf bash: https://cheatography.com/ericg/cheat-sheets/vi-editor/pdf: No such file or directory
Offline
To nie ryby uciekły tylko rybak coś nie teges ;)
wget https://cheatography.com/ericg/cheat-sheets/vi-editor/pdf/ -O cheat-sheets.pdf
i analogiczne cała reszta z sitemap.
Offline
#!/bin/bash site="https://cheatography.com/sitemap.xml" urls="$(wget -qO- "$site" | \ grep '^ <loc>' | \ sed 's/^ <loc>//g' | \ sed 's/<\/loc>/pdf/g' | \ tr -d '\r')" for i in $urls; do filename="$(echo "$i" | \ sed 's/https:\/\/cheatography.com\///g' | \ sed 's/\//./g')" wget -O "$filename" "$i" done
Offline
Obydwa sposoby tj, komenda Kol "arecki" i skrypt basha Kol "megabajt" dzialaja znakomicie! Z wyrazami szacunku za wiedze i wdziecznosci za poswiecony czas !!!
https://imgur.com/a/dvsEtZH
Offline