Forum Debian Users Gang

morfik · 2021-10-30 01:04:54

Jest sobie sporo plików tekstowych i część z nich kwalifikuje się do poprawy. Chodzi o to, że dany plik może zawierać od zera do kilkudziesięciu wystąpień takich fraz jak ta poniższa:

Kod:

![](/img/2016/08/001.jakis-tam-text1.jpg#huge)

Trzeba z tego zrobić coś na poniższy wzór:

Kod:

![jakis tam text1](/img/2016/08/001.jakis-tam-text1.jpg#huge)

Czyli w miejsce między [ ] trzeba wstawić nazwę obrazka.

Problem jest jeszcze taki, że niektóre pliki tekstowe mają takie linijki:

Kod:

| ![](/img/2021/10/004.jakis-tam-text2.jpg#small) | ![](/img/2021/10/005.jakis-tam-text3.jpg#small) |

i te linijki trzeba również przepisać do

Kod:

| ![jakis tam text2](/img/2021/10/004.jakis-tam-text2.jpg#small) | ![jakis tam text3](/img/2021/10/005.jakis-tam-text3.jpg#small) |

Ktoś ma pomysł jak to hurtowo przerobić? xD

Jacekalex · 2021-10-30 07:35:56

Kod:

sed -i 's$cośtam$cośinnegotam$g' *

poleci po wszystkich plikach w katalogu.

Tylko wynik niektórych prób może nie być satysfakcjonujący, więc testuj na kopii najpierw.

morfik · 2021-10-30 13:13:07

To chyba nie zadziała tak jak myślisz. xD

fnmirk · 2021-10-30 13:25:27

Ja korzystam z tego:

Kod:

sed 's/frazaoryginalna/frazazamieniana/' wejsciowy.txt > wyjsciowy.txt

A tu masz skrypt bercika rozwijający to:
https://dug.net.pl/drukuj/58/masowa_edycja_duzej_il … w_tekstowych/

morfik · 2021-10-30 14:25:03

To przecie nie zadziała. xD Ja wiem, że gdyby każdy plik miał

Kod:

![](/img/2016/08/001.jakis-tam-text1.jpg#huge)

To bez problemu by szło przerobić do

Kod:

![jakis tam text1](/img/2016/08/001.jakis-tam-text1.jpg#huge)

Ale tutaj każdy plik ma ten kawałek inny i nawet w tym samym pliku jest kilka innych takich kawałków. Różnią się one tym co stoi po /img/ i nazwę takiego obrazka trzeba by wstawić między [ ], które jest wcześniej. Więc tutaj sam sed nie zdziała, bo trzeba trochę bardziej zaawansowanej magii. xD

fnmirk · 2021-10-30 14:49:29

morfik, ja raczej jestem odtwórcą gotowych skryptów. Może spróbuj skorzystać z generatora wyrażeń regularnych, aby opisać problem dla jakiegoś narzędzia.

Kod:

apt info rgxg

numer_inaczej · 2021-10-30 15:24:16

Kod:

echo '![](/img/2016/08/001.jakis-tam-text1.jpg#huge)' | sed -n 's/!\[.*](\/img\(.*\))/[\1]/p'

u mnie działa

Ostatnio edytowany przez numer_inaczej (2021-10-30 15:24:38)

morfik · 2021-10-30 20:43:28

Nie działa. xD

Orginal był:

Kod:

![](/img/2016/08/001.jakis-tam-text1.jpg#huge)

Wyszło:

Kod:

[/2016/08/001.jakis-tam-text1.jpg#huge]

a miało być

Kod:

![jakis tam text1](/img/2016/08/001.jakis-tam-text1.jpg#huge)

numer_inaczej · 2021-10-31 09:05:19

Teraz zgodnie z oczekiwaniami:

Kod:

echo '![](/img/2016/08/001.jakis-tam-text2.jpg#huge)' | sed -n 's/!\[.*\](\(\(.*\)\.\(.*\)\.\(.*\)\))/![\3](\1)/p'

Ostatnio edytowany przez numer_inaczej (2021-10-31 10:10:08)

morfik · 2021-10-31 19:42:04

Hmm, no wygląda, że robi co powinno przynajmniej ten kluczowy element, o który mi chodzi, resztę jakoś sobie ogarnę. xD

A mógłbyś mi jeszcze napisać co dokładnie robi ![\3](\1) ? xD

Ostatnio edytowany przez morfik (2021-10-31 19:45:42)

numer_inaczej · 2021-10-31 20:44:11

Zawartość nawiasów \(.*\) jest przywoływana w momencie postawienia \1 lub \3.
Są to tzw. odwołania wsteczne które określa nawias okrągły.

\1 - to zawartość Twego okrągłego nawiasu.
Kropki między wewnętrznymi nawiasami oddzielają interesujący Cię tekst.(2 i 3 - nawiasy wewnęrzne)

morfik · 2021-10-31 21:24:53

numer_inaczej napisał(-a):
Zawartość nawiasów \(.*\) jest przywoływana w momencie postawienia \1 lub \3.
Są to tzw. odwołania wsteczne które określa nawias okrągły.

\1 - to zawartość Twego okrągłego nawiasu.
Kropki między wewnętrznymi nawiasami oddzielają interesujący Cię tekst.(2 i 3 - nawiasy wewnęrzne)

Metodą prób i błędów doszedłem do tych samych wniosków. xD

Jest jednak jeden problem. Jak podam zawartość pliku, który ma coś na wzór ![](/img/2016/08/001.jakis-tam-text2.jpg#huge) i przepuszczę to przez twojego sed'a, to mam w zasadzie wyczyszczony plik, tj. jakakolwiek inna treść z tego pliku jest kasowana. W pliku zostają tylko uzupełnione linijki zawierające frazy podobne do tej powyżej. Jak usunę parametr -n z tego polecenia co dałeś, to nie czyści mi pliku z tekstu ale każda fraza jest zdublowana (jedna pod drugą), co wygląda mniej więcej tak:

Kod:

text text text text text text text text text text text text text text text text text 

![jakis-tam-text1](/img/2015/06/1.jakis-tam-text1.png#medium)
![jakis-tam-text1](/img/2015/06/1.jakis-tam-text1.png#medium)

text text text text text text text text text text text text text text

Jak to obejść? xD

morfik · 2021-10-31 22:01:38

Ok dałem se radę chyba. xD

Zamiast:

Kod:

 sed -n 's/!\[.*\](\(\(.*\)\.\(.*\)\.\(.*\)\))/![\3](\1)/p'

dałem:

Kod:

 sed 's/!\[.*\](\(\(.*\)\.\(.*\)\.\(.*\)\))/![\3](\1)/g'

numer_inaczej · 2021-10-31 23:30:13

Tak, `g' to flaga global (p jest dla pojedynczego wiersza)

morfik · 2021-10-31 23:59:04

No pierwsza seria poszła. Trochę błędów miałem ale to przez literówki w tekście źródłowym ale przy okazji popoprawiałem wszystko. xD

Szkoda, że mi się zmienił styl pisania tekstów na przestrzeni lat i mam lekką niekonsekwencje w zapiskach.

Np. trzeba jeszcze teraz to przepisać:

Kod:

![](/img/2016/12/030-jakis-tam-text1.png#big)

Różni się on od tego poprzedniego tym, że tutaj po numerku stoi myślnik, a nie kropka i tak łatwo już chyba nie będzie? xD Tych fraz między myślnikami może być dowolna ilość (od kilku do kilkunastu).

Jakieś sugestie? xD

numer_inaczej · 2021-11-01 00:16:19

EDIT:

Kod:

echo '![](/img/2016/08/001-jakis-romek-tam-text1.jpg#huge)' | sed -n 's/!\[.*\](\/img\/\([0-9]*\/[0-9]*\/[0-9]*\)\-\(.*\)\.\(.*\))/![\2](\1-\2.\3)/p'

Tym razem trzeba było określić powtarzające się znaki cyfr `[0-9]' odzielone separatorem ukośnika.
Ażeby nie brał pod uwagę znaczenia specjalnego ukośnika, musimy poprzedzić go odwrotnym.

Uważaj na to, że dopasowania są 'zachłanne' - czyli jeśli są dwa zamknięte nawiasy, to będzie pożerał do max wysuniętego. Stąd takie manipulacje.

Ostatnio edytowany przez numer_inaczej (2021-11-01 00:46:48)

morfik · 2021-11-01 00:37:40

Z tego co widzę, to wyszło:

Kod:

![jakis-romek-tam-text1.jpg#huge](2016/08/001-jakis-romek-tam-text1.jpg#huge)

A miało wyjść:

Kod:

![jakis-romek-tam-text1](2016/08/001-jakis-romek-tam-text1.jpg#huge)

tj. bez tej końcówki: .jpg#huge

Ok, widzę, że poprawione już. xD

Ale teraz wychodzi:

Kod:

![jakis-romek-tam-text1](2016/08/001-jakis-romek-tam-text1)

Gdzieś wcięło: .jpg#huge

Ostatnio edytowany przez morfik (2021-11-01 00:40:06)

numer_inaczej · 2021-11-01 00:47:06

już jest, patrz wyżej :)

Ostateczna wersja daje:

Kod:

![jakis-romek-tam-text1](2016/08/001-jakis-romek-tam-text1.jpg#huge)

Ostatnio edytowany przez numer_inaczej (2021-11-01 00:49:58)

morfik · 2021-11-01 00:55:46

No wyszło bardzo podobnie: xD

Kod:

echo '![](/img/2016/08/001-jakis-romek-tam-text1.jpg#huge)' | sed -n 's/!\[.*\](\/img\/\([0-9]*\/[0-9]*\/[0-9]*\)\-\(.*\)\.\(.*\))/![\2](\1-\2.\3)/p'
echo '![](/img/2016/08/001-jakis-romek-tam-text1.jpg#huge)' | sed -n 's/!\[.*\](\/img\/\([0-9]*\/[0-9]*\/[0-9]*\)\-\(.*\)\.\(.*)\)/![\2](\1-\2\.\3/p'

Trochę się różnią ale dają ten sam efekt.

No ale grunt, że powoli zaczynam to łapać. xD

Ostatnio edytowany przez morfik (2021-11-01 00:57:41)

numer_inaczej · 2021-11-01 01:00:55

sorki, późno jest i mi się miesza, co ma być, czego nie :D zapomniałem o /img/ przed datą.

Kod:

echo '![](/img/2016/08/001-jakis-romek-tam-text1.jpg#huge)' | sed -n 's/!\[.*\](\(\/img\/\)\([0-9]*\/[0-9]*\/[0-9]*\)\-\(.*\)\.\(.*\))/![\3](\1\2-\3.\4)/p'

zwraca:

Kod:

![jakis-romek-tam-text1](/img/2016/08/001-jakis-romek-tam-text1.jpg#huge)

Ostatnio edytowany przez numer_inaczej (2021-11-01 01:06:25)

morfik · 2021-11-01 01:10:51

Ta, zauważyłem w meld, że wcieło img. xD

morfik · 2021-11-01 02:36:38

Dobra druga partia też jest z głowy. Została ostatnia. xD

Mamy linijki typu wcześniejszego w takim układzie:

Kod:

| ![](/img/2016/12/020.jakis-tam-text1.png#medium) | ![](/img/2016/12/021.jakis-tam-text2.png#medium) |

Za cyferkami mogą występować kropki albo myślniki, tak jak wcześniej. Fraz typu ![](/img/2016/12/020.jakis-tam-text1.png#medium) w jednej linijce może być kilka ale nie mniej niż dwie. Na początku linijki i końcu jest znak pipe | oraz poszczególne frazy są nim od siebie oddzielone.

Trzeba to przerobić do poniższej postaci:

Kod:

| ![jakis-tam-text1](/img/2016/12/020.jakis-tam-text1.png#medium) | ![jakis-tam-text2](/img/2016/12/021.jakis-tam-text2.png#medium) |

morfik · 2021-11-01 03:34:05

Zrobiłem coś takiego ale to nie jest za bardzo skalowalne. xD

Kod:

sed 's@| !\[.*\](\(\/img\/\)\([0-9]*\/[0-9]*\/[0-9]*\)\.\(.*\)\.\(.*\)) | !\[.*\](\(\/img\/\)\([0-9]*\/[0-9]*\/[0-9]*\)\.\(.*\)\.\(.*\))@| ![\3](\1\2.\3.\4) | ![\7](\5\6.\7.\8)@g'

sed 's@| !\[.*\](\(\/img\/\)\([0-9]*\/[0-9]*\/[0-9]*\)\-\(.*\)\.\(.*\)) | !\[.*\](\(\/img\/\)\([0-9]*\/[0-9]*\/[0-9]*\)\.\(.*\)\.\(.*\))@| ![\3](\1\2-\3.\4) | ![\7](\5\6-\7.\8)@g'

Ale łapie ten powyższy przypadek.

Dla 3 trzeba by dorobić kolejny człon i dla 4 jeszcze jeden ale to chyba nie tędy droga? xD

morfik · 2021-11-01 06:12:41

Mam takie pytanie: dlaczego to poniższe:

Kod:

$  echo '| ![](/img/2016/12/020.jakis-tam-text1.png#medium) | ![](/img/2016/12/021.jakis-tam-text2.png#medium) | ![](/img/2016/12/022.jakis-tam-text3.png#medium) |' | sed  's@^| !\[.*\](\(\/img\/\)\([0-9]*\/[0-9]*\/[0-9]*\)\.\(.*\)\.\(.*\)) |$@| ![\3](\1\2.\3.\4) |@'

zwraca taki wynik?

Kod:

| ![jakis-tam-text3](/img/2016/12/022.jakis-tam-text3.png#medium) |

a nie:

Kod:

| ![jakis-tam-text1](/img/2016/12/020.jakis-tam-text1.png#medium) |

albo

Kod:

| ![jakis-tam-text1](/img/2016/12/020.jakis-tam-text1.png#medium) | ![jakis-tam-text2](/img/2016/12/021.jakis-tam-text2.png#medium) | ![jakis-tam-text3](/img/2016/12/022.jakis-tam-text3.png#medium) |

numer_inaczej · 2021-11-01 10:26:59

Wydaje mi się, że:
- pierwotnie założyłem, że nawias kwadratowy [] może zawierać jakiś tekst - umieszczając wewnątrz .*
- przy większej ilości musimy zdjąć specjalne znaczenie nawiasu poprzedzając go ukośnikiem \[\], wcisnąć go w zakres jaki może się powtórzyć [\[\]] i określić znakiem +, że może się powtórzyć 1 lub więcej razy

czyli powinno być:

Kod:

echo '| ![](/img/2016/12/020.jakis-tam-text1.png#medium) | ![](/img/2016/12/021.jakis-tam-text2.png#medium) | ![](/img/2016/12/022.jakis-tam-text3.png#medium) |' | sed 's@^| ![\[\]]+(\(\/img\/\)\([0-9]*\/[0-9]*\/[0-9]*\)\.\(.*\)\.\(.*\)) |$@| ![\3](\1\2.\3.\4) |@'

co daje nam:

Kod:

| ![](/img/2016/12/020.jakis-tam-text1.png#medium) | ![](/img/2016/12/021.jakis-tam-text2.png#medium) | ![](/img/2016/12/022.jakis-tam-text3.png#medium) |

Wiem, że jest to punktem takim newralgicznym zapisu, jednak głowy nie dam uciąć że tak to jest jak określiłem

Ostatnio edytowany przez numer_inaczej (2021-11-01 11:40:42)

Forum Debian Users Gang

Ogłoszenie

#1 2021-10-30 01:04:54

morfik - Cenzor wirtualnego świata

Poprawa plików tekstowych

Kod:

Kod:

Kod:

Kod:

#2 2021-10-30 07:35:56

Jacekalex - Podobno człowiek...;)

Re: Poprawa plików tekstowych

Kod:

#3 2021-10-30 13:13:07

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

#4 2021-10-30 13:25:27

fnmirk - Redaktor

Re: Poprawa plików tekstowych

Kod:

#5 2021-10-30 14:25:03

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

Kod:

Kod:

#6 2021-10-30 14:49:29

fnmirk - Redaktor

Re: Poprawa plików tekstowych

Kod:

#7 2021-10-30 15:24:16

numer_inaczej - Użytkownik

Re: Poprawa plików tekstowych

Kod:

#8 2021-10-30 20:43:28

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

Kod:

Kod:

Kod:

#9 2021-10-31 09:05:19

numer_inaczej - Użytkownik

Re: Poprawa plików tekstowych

Kod:

#10 2021-10-31 19:42:04

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

#11 2021-10-31 20:44:11

numer_inaczej - Użytkownik

Re: Poprawa plików tekstowych

#12 2021-10-31 21:24:53

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

numer_inaczej napisał(-a):

Kod:

#13 2021-10-31 22:01:38

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

Kod:

Kod:

#14 2021-10-31 23:30:13

numer_inaczej - Użytkownik

Re: Poprawa plików tekstowych

#15 2021-10-31 23:59:04

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

Kod:

#16 2021-11-01 00:16:19

numer_inaczej - Użytkownik

Re: Poprawa plików tekstowych

Kod:

#17 2021-11-01 00:37:40

morfik - Cenzor wirtualnego świata

Re: Poprawa plików tekstowych

Kod:

Kod:

Kod:

#18 2021-11-01 00:47:06

numer_inaczej - Użytkownik

Re: Poprawa plików tekstowych

Kod: