Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2022-10-20 13:17:31

  bakao - Zbanowany

bakao
Zbanowany
Zarejestrowany: 2020-11-15

Wygrepowanie URLi do obrazów z pliku HTML

Czy ktoś z Was ma pod ręką regexp/polecenie dla grepa, żeby z pliku .html wygrepować urle (wartość atrybutu src dla <img>) z pliku HTML? Googlowałem ale najlepsze rozwiązanie jakie znalazłem, wykłada się w przypadku, gdy w jednej linii pliku znajduje się kilka URLi

Offline

 

#2  2022-10-20 17:39:05

  bakao - Zbanowany

bakao
Zbanowany
Zarejestrowany: 2020-11-15

Re: Wygrepowanie URLi do obrazów z pliku HTML

Znalazłem odpowiedź:

Kod:

grep -ohP 'src="(.*?)"' index.html | grep -ohP 'https?://([0-9a-z\-\_\/]*\.?)*'

Offline

 

#3  2022-10-21 23:40:20

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/random
Zarejestrowany: 2008-01-07

Re: Wygrepowanie URLi do obrazów z pliku HTML

Próbowałeś np tak:

Kod:

curl -s https://www.wp.pl |urifind | egrep  '*.jpg$|*.png$|*.gif$'

Polecenie /usr/bin/urifind mam z paczki (Gentoo)

Kod:

qfile `which urifind`
dev-perl/URI-Find: /usr/bin/urifind

która instaluje ten moduł perla:
https://metacpan.org/pod/URI::Find


Tu masz instrukcję samego polecenia:
https://metacpan.org/dist/URI-Find/view/bin/urifind
Pliki też przeszukuje.

W Debku jest w paczce:

Kod:

# root ~> apt-file search /usr/bin/urifind
liburi-find-perl: /usr/bin/urifind

Pozdro

Ostatnio edytowany przez Jacekalex (2022-10-23 02:26:45)


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#4  2022-11-17 14:32:30

  bakao - Zbanowany

bakao
Zbanowany
Zarejestrowany: 2020-11-15

Re: Wygrepowanie URLi do obrazów z pliku HTML

Ten perlowy pakiet świetny, dzięki!

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
Możesz wyłączyć AdBlock — tu nie ma reklam ;-)