Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Witajcie.
Linuksa i basha używam już jakiś czas i potrafię conieco zrobić za pomocą grep, awk, cut, tr itp. Problem mam tylko, gdy muszę pracować na tekście który ma wiele linijek a interesowany mnie tekst znajduje się w innej linijce niż to co wygrepowałem. Przykład:
<div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div>
Mam do przejścia kilkaset plików tekstowych i wycięcia z nich tego wszystkiego, co pojawia się pomiędzy <div class="post"> a kolejnym </div>. Dla utrudnienia dodam, że tekst ma różną długośc a <div class="post"> może się powtórzyć kilkukrotnie w jednym pliku (kilka tekstów będzie trzeba wygrepować). Czy przy pomocy znanych mi narzędzi będzie można to osiągnąć?
Offline
#!/usr/bin/perl open FH,"<",'/sciezka/do/pliku/z/tekstem'; while (<FH>){ if (/<div class="post">/../<\/div>/) { next if /<div class="post">/ || /<\/div>/; print } } close FH;
winnetou@hordeum-vulgare /tmp $ cat xx tekst przed ma 2 linijki <div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div> tekst po ma 2 linijki s winnetou@hordeum-vulgare /tmp $ ./xp.pl Kilka linijek tekstu winnetou@hordeum-vulgare /tmp $
Offline
Nie działa. Pytanie tylko, czy linijka nie powinna zaczynać się od <div class="post">? Często zdarza się, że przed <div class="post"> jest jeszcze sporo białych znaków.
Offline
winnetou@hordeum-vulgare /tmp $ cat xx tekst przed ma 2 linijki tu jakiś teskt ze spacjami <div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div> a tu też spacje i tekst tekst po ma 2 linijki s winnetou@hordeum-vulgare /tmp $ ./xp.pl Kilka linijek tekstu winnetou@hordeum-vulgare /tmp $
SOA #1
Natomiast jeśli w samym tagu <div> masz jakieś zbędne spacje to przerób pętle na regexpa :)
while (<FH>){ if (/<\s?div\s+?class="post"\s?>/../<\s?\/div\s?>/) { next if /<\s?div\s+?class="post"\s?>/ || /<\s?\/div\s?>/; print } }
Offline
Też nie działa. Może wrzuciłbym tu przykładowy plik z którego grepuję?
Offline
No to podaj plik z którym pracujesz, bo coś ściemniasz ;)
Offline