Forum Debian Users Gang

DeWu · 2015-04-07 09:54:11

Witajcie.
Linuksa i basha używam już jakiś czas i potrafię conieco zrobić za pomocą grep, awk, cut, tr itp. Problem mam tylko, gdy muszę pracować na tekście który ma wiele linijek a interesowany mnie tekst znajduje się w innej linijce niż to co wygrepowałem. Przykład:

Kod:

<div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div>

Mam do przejścia kilkaset plików tekstowych i wycięcia z nich tego wszystkiego, co pojawia się pomiędzy <div class="post"> a kolejnym </div>. Dla utrudnienia dodam, że tekst ma różną długośc a <div class="post"> może się powtórzyć kilkukrotnie w jednym pliku (kilka tekstów będzie trzeba wygrepować). Czy przy pomocy znanych mi narzędzi będzie można to osiągnąć?

winnetou · 2015-04-07 10:18:02

Kod:

#!/usr/bin/perl

open FH,"<",'/sciezka/do/pliku/z/tekstem';

while (<FH>){
    if (/<div class="post">/../<\/div>/) {
        next if /<div class="post">/ || /<\/div>/;
        print
    }
}
close FH;

Kod:

winnetou@hordeum-vulgare /tmp $ cat xx
tekst przed
ma 2 linijki
<div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div>
tekst po ma 2 linijki
s
winnetou@hordeum-vulgare /tmp $ ./xp.pl 
Kilka
linijek
tekstu
winnetou@hordeum-vulgare /tmp $

DeWu · 2015-04-07 10:40:31

Nie działa. Pytanie tylko, czy linijka nie powinna zaczynać się od <div class="post">? Często zdarza się, że przed <div class="post"> jest jeszcze sporo białych znaków.

winnetou · 2015-04-07 10:43:13

Kod:

winnetou@hordeum-vulgare /tmp $ cat xx 
tekst przed
ma 2 linijki
tu jakiś     teskt ze spacjami             <div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div> a tu też spacje i tekst 
tekst po ma 2 linijki
s
winnetou@hordeum-vulgare /tmp $ ./xp.pl 
Kilka
linijek
tekstu
winnetou@hordeum-vulgare /tmp $

SOA #1

Natomiast jeśli w samym tagu <div> masz jakieś zbędne spacje to przerób pętle na regexpa :)

Kod:

while (<FH>){
  if (/<\s?div\s+?class="post"\s?>/../<\s?\/div\s?>/) {
    next if /<\s?div\s+?class="post"\s?>/ || /<\s?\/div\s?>/;
    print
  }
}

DeWu · 2015-04-09 10:23:58

Też nie działa. Może wrzuciłbym tu przykładowy plik z którego grepuję?

winnetou · 2015-04-09 11:05:14

No to podaj plik z którym pracujesz, bo coś ściemniasz ;)

Forum Debian Users Gang

Ogłoszenie

#1 2015-04-07 09:54:11

DeWu - Użytkownik

Zabawa z tekstem

Kod:

#2 2015-04-07 10:18:02

winnetou - złodziej wirków ]:->

Re: Zabawa z tekstem

Kod:

Kod:

#3 2015-04-07 10:40:31

DeWu - Użytkownik

Re: Zabawa z tekstem

#4 2015-04-07 10:43:13

winnetou - złodziej wirków ]:->

Re: Zabawa z tekstem

Kod:

Kod:

#5 2015-04-09 10:23:58

DeWu - Użytkownik

Re: Zabawa z tekstem

#6 2015-04-09 11:05:14

winnetou - złodziej wirków ]:->

Re: Zabawa z tekstem

Stopka forum