Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

Użytkownik


Witajcie.
Linuksa i basha używam już jakiś czas i potrafię conieco zrobić za pomocą grep, awk, cut, tr itp. Problem mam tylko, gdy muszę pracować na tekście który ma wiele linijek a interesowany mnie tekst znajduje się w innej linijce niż to co wygrepowałem. Przykład:
<div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div>
Mam do przejścia kilkaset plików tekstowych i wycięcia z nich tego wszystkiego, co pojawia się pomiędzy <div class="post"> a kolejnym </div>. Dla utrudnienia dodam, że tekst ma różną długośc a <div class="post"> może się powtórzyć kilkukrotnie w jednym pliku (kilka tekstów będzie trzeba wygrepować). Czy przy pomocy znanych mi narzędzi będzie można to osiągnąć?
Offline




złodziej wirków ]:->
#!/usr/bin/perl
open FH,"<",'/sciezka/do/pliku/z/tekstem';
while (<FH>){
if (/<div class="post">/../<\/div>/) {
next if /<div class="post">/ || /<\/div>/;
print
}
}
close FH;winnetou@hordeum-vulgare /tmp $ cat xx tekst przed ma 2 linijki <div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div> tekst po ma 2 linijki s winnetou@hordeum-vulgare /tmp $ ./xp.pl Kilka linijek tekstu winnetou@hordeum-vulgare /tmp $
Offline

Użytkownik


Nie działa. Pytanie tylko, czy linijka nie powinna zaczynać się od <div class="post">? Często zdarza się, że przed <div class="post"> jest jeszcze sporo białych znaków.
Offline




złodziej wirków ]:->
winnetou@hordeum-vulgare /tmp $ cat xx tekst przed ma 2 linijki tu jakiś teskt ze spacjami <div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div> a tu też spacje i tekst tekst po ma 2 linijki s winnetou@hordeum-vulgare /tmp $ ./xp.pl Kilka linijek tekstu winnetou@hordeum-vulgare /tmp $
SOA #1
Natomiast jeśli w samym tagu <div> masz jakieś zbędne spacje to przerób pętle na regexpa :)
while (<FH>){
if (/<\s?div\s+?class="post"\s?>/../<\s?\/div\s?>/) {
next if /<\s?div\s+?class="post"\s?>/ || /<\s?\/div\s?>/;
print
}
}Offline

Użytkownik


Też nie działa. Może wrzuciłbym tu przykładowy plik z którego grepuję?
Offline




złodziej wirków ]:->
No to podaj plik z którym pracujesz, bo coś ściemniasz ;)
Offline