Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2008-11-28 17:12:30

  bercik - Moderator Mamut

bercik
Moderator Mamut
Skąd: Warszawa
Zarejestrowany: 2006-09-23
Serwis

problem z pdftops / ps2txt

problem dotyczy pewnych plikow pdf, (wg naglowka generowanych przez openoffica) a wyglada to nastepujaco:
* pdftotext plik.pdf daje poprawny wynik w postaci pliku tekstowego
* ps2txt plik.pdf podobnie jak pdftops plik.pdf; ps2txt plik.ps dajejakis szyfr jak ponizej:

Kod:

\Delta \Theta \Lambda \Xi \Pi \Sigma \Upsilon \Phi \Psi \Omega fffi\Xi ffflffi\Xi \Sigma ffffli\Pi j`'^*j_*\Pi

ponadto uzyskany plik.ps wyswietlany jest poprawnie jednak jego konwersja do pdf'u daje poprawnie wygladajacy pdf alre bez poprawnej warstwy tekstowej (nie da sie skopiowac tekstu ani wyszukiwac)

bede wdzieczny za wszelkie porady jak poradzic sobioe z konwersja takiego pdf do ps tak aby zachowac poprawna warstwe tekstowa (przynajmniej przy ponownej konwersji na pdf)

Ostatnio edytowany przez bercik (2008-11-28 17:14:09)


"Wszyscy wiedzą, że czegoś zrobić nie można. Ale przypadkowo znajduje się jakiś nieuk, który tego nie wie. I on właśnie robi odkrycie." (A.Einstein)

Offline

 

#2  2008-11-28 18:09:55

  azhag - Admin łajza

azhag
Admin łajza
Skąd: Warszawa
Zarejestrowany: 2005-11-15

Re: problem z pdftops / ps2txt

Na okrętkę, ale w tym szaleństwie może być metoda.

Zainstaluj cups-pdf i "wydrukuj" pdf do pdf :) -- może ten drugi pdf będzie przystępniejszy do konwersji.


Błogosławieni, którzy czynią FAQ.
opencaching :: debian sources.list :: coś jakby blog :: polski portal debiana :: linux user #403712

Offline

 

#3  2008-11-28 18:36:22

  fnmirk - Redaktor

fnmirk
Redaktor
Zarejestrowany: 2008-02-19

Re: problem z pdftops / ps2txt

bercik, nie będzie to kwestia czcionki i ligatur. I w momencie jak plik posiada nierozpoznane znaki to tworzy wtedy wynikową postać po najprostszej linii oporu jako obrazek bmp.
W którymś momencie konwersja korzysta z ligatur. I jeżeli mamy je w wynikowym pdfie to może być problem z innymi językami niż angielski.

Offline

 

#4  2008-11-29 00:47:25

  bercik - Moderator Mamut

bercik
Moderator Mamut
Skąd: Warszawa
Zarejestrowany: 2006-09-23
Serwis

Re: problem z pdftops / ps2txt

dzieki za zainteresowanie ...

@azhag
niestety druk tego pdf'u (zarowno drukarka kde, jak i cupd-pdf, jak tez gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite) powoduje rozwalenie sie ekstrakcji tekstu - ps2txt daje szyfr jak poprzednio a pdftotext daje smeici typu

Kod:

"  4     56*7'5 "  $  #"! "/
"/ % "#% #"
4# #&  0

@fnmirk
a moze wiesz czy jest jakas opcja ktora wymuszalaby zachowanie informacji tekstowej, zaznacze tez ze jest to typowy tekst w jezyku polskim czyli wiekszosc alfabetu lacinskiego (a w outpucie go wogole nie widac)

co dziwne pdftotext (z pakietu xpdf-utils) radzi sobie bardzo dobrze z ekstrakcja tekstu z tego pdf'u, ale juz pdftops (z tego samego pakietu) generuje postscript z tekstem niezrozumialym dla narzedzi z pakietu ghostscript (nie radza sobie one z obsluga tak zakodowanego tekstu jaki  jest w pierwotnym pdf'ie i jaki wchodzi z niego do wygenerowanego ps'a - wynik ps2txt dla pierwotnego pliku pdf i wygenerowanego pliku ps jest niemal identyczny, ps2pdff, ani pdfwriter nie sa w stanie odtworzyc pliku pdf z ktorego daloby sie wyciagnac ten tekst)

Edit:
jeszcze inny output daje narzedzie pstotext (tez jest on identyczny dla pierwotnego pdf'u jak i wygenerowanego ps), plik pdf utworzony przez pstopdf tez nie odtwarza warstwy tekstowej

edit2:
jakby ktos byl zainteresowany - http://www.opcode.eu.org/~rrp/0321.pdf - to jeden z kaprysnych pdf'ow

Ostatnio edytowany przez bercik (2008-11-29 01:07:03)


"Wszyscy wiedzą, że czegoś zrobić nie można. Ale przypadkowo znajduje się jakiś nieuk, który tego nie wie. I on właśnie robi odkrycie." (A.Einstein)

Offline

 

#5  2008-11-29 18:37:01

  fnmirk - Redaktor

fnmirk
Redaktor
Zarejestrowany: 2008-02-19

Re: problem z pdftops / ps2txt

Przejrzałem ten plik pdf i mam takie uwagi pytania:
1. Czy dobrze zrozumiałem, potrzebujesz edytować plik pdf i dokonać w nim poprawek.
Jeżeli tak to może lepszym rozwiązaniem byłoby skorzystanie z pakietu: pdfedit. Przeglądałem kilka razy ten pakiet i oferuje spore możliwości. Należy się jednak z nimi zaznajomić (nie miałem jeszcze takiej potrzeby - czekam na czas).

2. Co do ps2txt jest to skrypt, u mnie jest linkowany do skryptu ps2ascii. W internecie są różne jego wersje i mutacje łącznie chyba z komercyjnymi wersjami pod Windowsa. Mam zainstalowany pakiet poppler-utils zamiast xpdf-utils i wyniki są podobne.

Offline

 

#6  2008-11-29 20:16:00

  bercik - Moderator Mamut

bercik
Moderator Mamut
Skąd: Warszawa
Zarejestrowany: 2006-09-23
Serwis

Re: problem z pdftops / ps2txt

tak potrzebuje edytowac ten pdf, ale nie tekst w nim zawarty, a niestety pdfedit obecnie nie pozwala wstawic obrazka :-(

jak latwo zauwazyc jest to skan - mamy ocr i obrazki, a trzeba zrobic pdf z poprawnym wyszukiwaniem, ogolna idea polega na:
* konwersja pdf'u z tekstem i obrazka (tiff) do ps (to zalatwia pdftops i raczej robi to dobrze)
* modyfikacja ps'a tak aby nalozyc obrazek na tekst - ps ma ta zalete nad pdf'em ze jest plikiem tekstowym i mozna go latfo modyfikowac (wystarczy usunac kilka linijek aby nalozyc dwie strony na siebie)
* konwersja przeedytowanego ps do pdf (i tu sa schody bo narzedzia z pakietu ghostscript nie potrafia zinterpretowac poprawnie warstwy tekstowej jaka jest w tym pdf'ie/wyeksportowanym z niego ps'ie)

poppler wywodzi sie z xpdf i faktycznie on tez dobrze dziala, ale niestety on tez nie posiada narzedzia pstopdf niezaleznego od gs

ps2txt opiera sie w duzej mierze na programie postscriptowym i do calej zabawy korzysta z ghostscripta (a wydaje mi sie ze to w nim jest problem)


"Wszyscy wiedzą, że czegoś zrobić nie można. Ale przypadkowo znajduje się jakiś nieuk, który tego nie wie. I on właśnie robi odkrycie." (A.Einstein)

Offline

 

#7  2008-11-29 21:46:18

  fnmirk - Redaktor

fnmirk
Redaktor
Zarejestrowany: 2008-02-19

Re: problem z pdftops / ps2txt

Skoro i tak wykonujesz ocr. To nie prościej stworzyć plik źródłowy w Latexu. Masz połączyć zestaw: tekst z obrazkami. I moim zdaniem będziesz musiał przekłamania i błędy ocr poprawiać i sprawdzać czy chcesz czy nie chcesz.

Ja w przypadku kopiowania książki robię tak:
Skanuję wszystko pod Linuksem w formacie png, w możliwie najlepszej jakości. Obrabiam strony z obrazkami w gimpie i wycinam obrazki do wykorzystania konwertując je na format eps.

Całość tekstu wrzucam do programu ocr w celu rozpoznania samego tekstu. Tekst wrzucam do openoffica w celu sprawdzenia błędów i usunięcia śmieci.

Całość wrzucam do Latexa i uzyskuję taki format i w takiej postaci jakiej potrzebuję. Większość poleceń Latexa wstawiam na etapie sprawdzania tekstu w openofficie (np.: indeks).

Przy pierwszym podejściu mój sposób wydaje się czasochłonny jednak to tylko pozory.

Myślałem jak coś takiego zautomatyzować. Jednak nie robię tego w celach hurtowych czy zarobkowych. Przeważnie jest to potrzebne przy jakichś unikatowych tekstach, tekst gazetowy itp.

Przymierzam się do zrobienia kopii kilku książek, wydrukowanych w czasach PRLu na kiepskiej jakości papierze i mocno już żółknących z upływem czasu.

Offline

 

#8  2008-11-29 23:33:33

  bercik - Moderator Mamut

bercik
Moderator Mamut
Skąd: Warszawa
Zarejestrowany: 2006-09-23
Serwis

Re: problem z pdftops / ps2txt

dzieki za rade ale problem w tym ze ocr wraz z korekta jest wykonany dawno temu - mamy pliki rtf i obrazki (niestety osobno) i z tego ma powstac pdf ktory jako wrstwe graficzna zawiera skan a OCR jest do wyszukiwania (nie jest wyswietlany) ... pozatym tego materialu jest ogrom (rzedu tysiecy stron) wiec recznie nie bede sie przez to przeklikiwal (raczej juz napisze konwerter ps->pdf ktory to dobrze robi :-))

btw dla pdf'ow generowanych z latexa konwersja pdftops -> ps2pdf -> pdftotext jest prawie bezstratna w porownaiu do pdftotext (gubi tylko niektore z syboli trybu matematycznego)

poprownujac wynik pdftops z opcja -noembtt i bez niej udalo mi sie ustalic iz jest to jakis problem zwiazany z czcionka - gdy eksportujemy bez fontu to zamiast poprawnego tekstu wyswietlonego inna czcionka dostajemy smieci wyswietlone inna czcionka ... czyli postscript (w odroznieniu od narzedzi pdf'owych) radzi sobie tylko z wyswietlaniem tej czcionki (gdy ma jej opis) ale nie radzi sobie z dekodowaniem kodow jej znakow na standardowy tekst

gdyby nie to ze xpdf i pochodne sobie z tym radza to wszystko byloby jasne, (uzyta czcionka z niestandardowym przypisaniem kodow do znakow) ... ale dlaczego xpdf sobie radzi?

Edit:
co dziwne ta czciona to z nazwy dossc popularna - TimesNewRomanPSMT ... na sieci (https://fcp.surfsite.org/modules/newbb/viewtopic.ph … &start=10) znalazlem tez info ze problem zwiazany z pdf'ami z ktorych nie mozna kopiowac tekstu, ale z tego pdf'u daje sie kopiowac tekst

Ostatnio edytowany przez bercik (2008-11-29 23:52:21)


"Wszyscy wiedzą, że czegoś zrobić nie można. Ale przypadkowo znajduje się jakiś nieuk, który tego nie wie. I on właśnie robi odkrycie." (A.Einstein)

Offline

 

#9  2008-11-30 22:44:53

  fnmirk - Redaktor

fnmirk
Redaktor
Zarejestrowany: 2008-02-19

Re: problem z pdftops / ps2txt

Znalazłem takie informacje jeszcze:
http://www.urz.uni-heidelberg.de/UnixCluster/Hinwei … t/ps2txt.html
http://www.comp.eonworks.com/scripts/ps2txt
Cofnij się w podanych odnośnikach do katalogów wyżej może jeszcze coś wybierzesz.

Offline

 

#10  2008-12-01 16:35:12

  bercik - Moderator Mamut

bercik
Moderator Mamut
Skąd: Warszawa
Zarejestrowany: 2006-09-23
Serwis

Re: problem z pdftops / ps2txt

dzieki za linki ... niestety nie prowadza do rozwiazania problemu ... bo nim jest bledne konwertowanie przez gs takich plikow ps nie tyle do txt co do pdf (z tego co ustalilem jest to problem wlasnie gs'a)


"Wszyscy wiedzą, że czegoś zrobić nie można. Ale przypadkowo znajduje się jakiś nieuk, który tego nie wie. I on właśnie robi odkrycie." (A.Einstein)

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
Możesz wyłączyć AdBlock — tu nie ma reklam ;-)