Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2015-04-07 09:54:11

  DeWu - Użytkownik

DeWu
Użytkownik
Zarejestrowany: 2013-03-26

Zabawa z tekstem

Witajcie.
Linuksa i basha używam już jakiś czas i potrafię conieco zrobić za pomocą grep, awk, cut, tr itp. Problem mam tylko, gdy muszę pracować na tekście który ma wiele linijek a interesowany mnie tekst znajduje się w innej linijce niż to co wygrepowałem. Przykład:

Kod:

<div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div>

Mam do przejścia kilkaset plików tekstowych i wycięcia z nich tego wszystkiego, co pojawia się pomiędzy <div class="post"> a kolejnym </div>. Dla utrudnienia dodam, że tekst ma różną długośc a <div class="post"> może się powtórzyć kilkukrotnie w jednym pliku (kilka tekstów będzie trzeba wygrepować). Czy przy pomocy znanych mi narzędzi będzie można to osiągnąć?

Offline

 

#2  2015-04-07 10:18:02

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Zabawa z tekstem

Kod:

#!/usr/bin/perl

open FH,"<",'/sciezka/do/pliku/z/tekstem';

while (<FH>){
    if (/<div class="post">/../<\/div>/) {
        next if /<div class="post">/ || /<\/div>/;
        print
    }
}
close FH;

Kod:

winnetou@hordeum-vulgare /tmp $ cat xx
tekst przed
ma 2 linijki
<div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div>
tekst po ma 2 linijki
s
winnetou@hordeum-vulgare /tmp $ ./xp.pl 
Kilka
linijek
tekstu
winnetou@hordeum-vulgare /tmp $

LRU: #472938
napisz do mnie: ola@mojmail.eu
Hołmpejdż | Galerie | "Twórczość" || Free Image Hosting

Offline

 

#3  2015-04-07 10:40:31

  DeWu - Użytkownik

DeWu
Użytkownik
Zarejestrowany: 2013-03-26

Re: Zabawa z tekstem

Nie działa. Pytanie tylko, czy linijka nie powinna zaczynać się od <div class="post">? Często zdarza się, że przed <div class="post"> jest jeszcze sporo białych znaków.

Offline

 

#4  2015-04-07 10:43:13

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Zabawa z tekstem

Kod:

winnetou@hordeum-vulgare /tmp $ cat xx 
tekst przed
ma 2 linijki
tu jakiś     teskt ze spacjami             <div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div> a tu też spacje i tekst 
tekst po ma 2 linijki
s
winnetou@hordeum-vulgare /tmp $ ./xp.pl 
Kilka
linijek
tekstu
winnetou@hordeum-vulgare /tmp $

SOA #1


Natomiast jeśli w samym tagu <div> masz jakieś zbędne spacje to przerób pętle na regexpa :)

Kod:

while (<FH>){
  if (/<\s?div\s+?class="post"\s?>/../<\s?\/div\s?>/) {
    next if /<\s?div\s+?class="post"\s?>/ || /<\s?\/div\s?>/;
    print
  }
}

LRU: #472938
napisz do mnie: ola@mojmail.eu
Hołmpejdż | Galerie | "Twórczość" || Free Image Hosting

Offline

 

#5  2015-04-09 10:23:58

  DeWu - Użytkownik

DeWu
Użytkownik
Zarejestrowany: 2013-03-26

Re: Zabawa z tekstem

Też nie działa. Może wrzuciłbym tu przykładowy plik z którego grepuję?

Offline

 

#6  2015-04-09 11:05:14

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Zabawa z tekstem

No to podaj plik z którym pracujesz, bo coś ściemniasz ;)


LRU: #472938
napisz do mnie: ola@mojmail.eu
Hołmpejdż | Galerie | "Twórczość" || Free Image Hosting

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
Możesz wyłączyć AdBlock — tu nie ma reklam ;-)