Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Strony: 1
Do dyspozycji jest drukarka laserowa monochromatyczna, która drukuje jedynie w skali szarości. Jest też dokument pdf, który z jako takim dokumentem pdf nie ma nic wspólnego -- są to najwyraźniej zeskanowane fotki książki wrzucone do jednego pliku pdf. Zadanie jest takie, by wydrukować ten pdf najmniejszym kosztem, tj. w back-white, a nie w skali szarości, co by pewnie zużyło cały toner.
Ja to u siebie rozwiązałem via:
$ pdfimages skan.pdf page
To polecenie rozbija pdf na kolejne strony (obrazki).
Każda taka strona jest później traktowana convert'em:
$ ls ./p*.ppm | xargs -L1 -I {} convert {} -quality 100 -density 300 -fill white -fuzz 80% +opaque "#000000" {}.jpg
gdzie w sumie trzeba jedynie dostosować wartość parametru -fuzz -- jeśli będzie 0% to będzie oryginalny obrazek, a im bliżej 100% tym bardziej wybielony.
A wy jakie macie sposoby na drukowanie kolorowych skanów dokumentów na drukarkach laserowych by za dużo tonera nie marnować? xD
Offline
Najlepiej to użyj do rozłożenia pliku pdf na strony, polecenia:
pdftocairo --help
Masz zapewne w systemie, bo jest w pakiecie poppler-utils.
Najlepiej zrób format tiff lub png. Potem najlepszy byłby program Scantailor. Niestety projekt jest martwy, ostatnia aktualizacja w Debianie buster. Wczytujesz do niego obrazki i w pięciu etapach otrzymujesz gotowe obrazki: wyrównane, poprawione, podwójne strony podzielone, wyrównane, oczyszczone ze zbędnych elementów itp. Nawet poprawia perspektywę obrazków. Na koniec możesz wybrać jaką wersję obrazków chcesz zapisać. Kolorowy, szary, czarno-biały, nawet mieszany (część kolorowa, reszta szara itp.).
Tu masz pomoc: https://github.com/scantailor/scantailor/wiki
Podobne opcje ma program paperwork. Jego dopiero poznaję. Jednak trochę mi on nie podchodzi. Wolę program scantailor.
Ja końcowe obrazki wczytuję do Tex-a/Latex-a tworząc nowy pdf. Ty jak nie znasz Latex-a, to możesz wykorzystać dowolny program do łączenia obrazków w pdf.
https://packages.debian.org/buster/scantailor
https://packages.debian.org/bullseye/paperwork-backend
Paperwork ma pomoc w systemie.
Dodane:
Paperwork, dodatkowo, jak jest w systemie dostępny odpowiedni silnik OCR, potrafi dokonać rozpoznania tekstu.
Ostatnio edytowany przez fnmirk (2021-10-20 02:42:17)
Offline
No ma jedną fajną opcję:
$ pdftocairo skan.pdf -mono -png
No ale przy skanach taki kolor jednobitowy słabo się sprawdza ale podoba mi się. xD
Co do Scantailor to wywalili z debiana bo "Depends on Qt4, dead upstream", więc o nim można zapomnieć.
Ten paperwork jest chyba za bardzo zintegrowany z gnome, próbuje wołać avahi-daemon.service, żre mi proca 100% po załadowaniu do tej appki pliku pdf. xD Co do jego właściwości OCR, to średnie bym powiedział, przynajmniej jeśli chodzi o ten mój dokument -- potrafi może rozpoznać prawidłowo jedno słowo na 100. xD Trochę słabej jakości ten skan jest.
Jakieś inne sugestie, bo to rozwiązanie co zaproponowałem wyżej jest ździebko lepsiejsze, choć muszę jeszcze poszukać jak z tych obrazków zrobić pdf, tak by nie trzeba było tego drukować jako osobne dokumenty.
Wygląda, że też convert'em można to dziabnąć:
$ convert *.png file.pdf
Ostatnio edytowany przez morfik (2021-10-20 16:16:12)
Offline
Paperwork to przede wszystkim muł i nie ma porównania do ScanTailor-a.
ScanTailor, wyleciał, bo wszystko z qt4 z Debiana 11 wyleciało, to wiadomo. Ale jest fork scantailor-advanced z poprawką na qt5 i kompiluje się bardzo dobrze w Debianie 11, to i do repo kiedyś trafi. Ale działa ciut wolniej, niż stary na qt4. Bardzo dobry program, używam od lat, parę innych z qt4 też mi poleciało jak zrobiłem upgrade do 11, nie tylko ten.
Jest też przygotowany skrypt do czyszczenia zeskanowanego tekstu (zdjęcia z tekstem, też oczywiście), przez twórców convert/imagemagick, textcleaner. Na dole opis i pobranie.
---------------
A ja czyszczę zeskanowane materiały dla OCR-a, (przybierając tu twoją formę polecenia, by nie mieszać, bo ja to oskryptowałem inaczej pod prawego myszy), w taki sposób: (Materiały tekstowe lepiej zapisywać w innych formatach niż bardzo stratny jpeg).
To jest oczywiście propozycja robienia prosto z pdf-a, bo tak jest lepiej, prościej i mocno czyści dla OCR-a. Uwaga na pdf-y z wieloma stronami, lepiej podzielić na pojedyncze strony, bo obraz może być koszmarnie długi.
A najlepiej do testu wyodrębnić jedną stronę, można w pdftk (tu przykładowo 22 strona, wybrać z samym tekstem).
pdftk book.pdf cat 22 output strona22.pdf
I dopiero teraz, z jedną stroną robić test.
ls ./*.pdf | xargs -I {} convert -density 300 {} -colorspace rgb -monochrome -median 2 -append {}.png
A może spróbuj tą jedną stronę moim sposobem, od razu do tekstowego przenieś z ocr-em, musisz mieć tylko zainstalowany tesseract-ocr i tesseract-ocr-pol (można cuneiform używać jak ktoś lubi, lepiej formatuje text zwłaszcza dwu kolumnowy, ale miewa swoje problemy).
U mnie to działa całkiem przyzwoicie. Wiadomo, że wszystko zależy od materiału wyjściowego i czasami jest lipa. Na przykład jak są rysunki lub tabele, to można zapomnieć, że tesseract je odwzoruje, ale sam tekst daje rade. Uwaga na ilość plików w folderze, może lepiej zmienić, by nie łapało wszystkiego, lub rozpisać to dla pliku (może zdjęcia z tekstem umieszczone w tym pdf-e nie będą takie złe i cos z tego będzie).
ls ./*.pdf | xargs -I {} convert -density 300 {} -colorspace rgb -monochrome -median 2 -append {}.png ; find . -name "*.png" -print0 | xargs -0 -I {} tesseract --dpi 300 {} {} -l pol
Dla testu możesz też zrobić zdjęcie tekstu i też spróbować rozdzielczość będzie lepsza materiału wyjściowego, całkiem dobrze to wychodzi. (Wiadomo na Androida są programy czyszczące, ale...)
Pdf-a skleisz też w pdftk, lub z GUI to może być PDFSum (darmowa wersja Basic wystarczy).
Może się do czegoś to przyda.
==========dodany=============
Edycja: Przepuściłem przez tesseract-ocr pliki zrobione tak jak opisałeś.
pdftocairo skan.pdf -mono -png
I też są dobrze przetworzone do tekstu (pliki są o większej rozdzielczości 2x, niż moje, co pomaga przy ocr), wydaje się że OCR robi jeszcze mniej badów z nimi. Na 50 linii tekstu z marnego materiału, wyciągniętego z pdf-a, zrobił w moim jeden, a w drugim nie znalazłem błędów.
Dodatkowo z takiego JPG-a pobranego ze strony wikisource.org, zapakowanego specjalnie w pdf-a, dla testu. Po przerobieniu go moim sposobem, prawie nie zrobił błędów, ale to jest przyzwoity skan.
Dla porównania do zdjęcia, to jest ten wyciągnięty tekst z testu tego jpeg-a, przez tesseract-ocr.
— 17 — grube 1 drobne, albo zupełnie gładkie; szerokie około 45 cali. Cena łokcia od 20 do 50 kopiejek. *) 6), Papier kolorowy, marmurkowy, szagryno- wy, używany do tego, co 1 płótno angielskie. I on jest w rozmaitych kolorach, a jak wiem z doświad- czenia, najładniejszy jest koloru ciemnego, ciemno- czerwonego i ciemno-niebieskiego w kółeczka. War- to się poznać samemu dobrze na papierze, a także przy braniu książek do oprawy zapytywać, jaki kto papier lubi, bo na nim łatwo się sparzyć; kupiec bo- wiem najczęściej podaje każdemu na wstępie towary lichszego gatunku, więc i papier można kupić taki, który zawsze będzie farbę puszczał. Cena arkusza papieru od 1—34 kopiejek. 1) Złoto, którego się używa do wyciskania liter lozdób. Jest ono w cienkich listkach, złożonych w ksią- #<1-- i ozdób z większego pliku było iozdób żeczkę i przekładanych papierem. Książeczka najlepsze- go złota kosztuje 40 kopiejek i taką radzę każdemu kupować. Książeczki zaś „dwojniaku* I „trojniaku* można dostać za 10 kopiejek, aleto takie paskudztwo, że szkoda na nie pieniędzy — nie daje się brać do ręki, przy najlżejszem dmuchnięciu w proch się rozlatuje 1 nigdy nie da tak pięknych odbić, jak numer |1-szy. #<2--- pierwsza 1 powinno być i, | dodał, z większego nie było tych błędów 8). Białko z jaja, którem się smaruje te miejsca, gdzie mają być odciski. Przyrządzaj je w taki spo- sób: stłukłszy świeże jajko knrze, wypuść z niego do #<3-- knrze, ze wiekszego było prawidłowe kurze szklanki białko bez żóltka, dolej wody drugie tyle, #<4-- żóltka tam jest ledwo widoczne że to ł *) Niektórzy ludzie (klijenci) każą książki oprawiać w to płót,. #<5---- na zdjęciu widać że trudno to uznać za błąd ocr, tam też nie ma - no, z którego krawcy robią podszewki do ubrania. Najlepsze czarne:
A z 2x większego obrazka, zrobionego przez pdftocairo było, jeszcze lepiej. Wynika z tego że lepiej sprawdzić, czy tesseract-ocr sobie poradzi, niż drukować paskudne zdjęcia ze słabym tekstem, to będzie zawsze gorzej wyglądało. Można zawsze zrobić, jak pdftocairo 2x większy plik, dla tesseract-ocr-a i będzie jeszcze mniej błędów, wystarczy -density 300, zmienić na 600.
Ostatnio edytowany przez jawojx (2021-10-20 22:20:27)
Offline
Narzędzia dostępne w poppler-utils, mogą cię zainteresować jak chcesz drążyć temat.
Poppler is a PDF rendering library based on Xpdf PDF viewer.
This package contains command line utilities (based on Poppler) for getting
information of PDF documents, convert them to other formats, or manipulate
them:
pdfdetach — lists or extracts embedded files (attachments)
pdffonts — font analyzer
pdfimages — image extractor
pdfinfo — document information
pdfseparate — page extraction tool
pdfsig — verifies digital signatures
pdftocairo — PDF to PNG/JPEG/PDF/PS/EPS/SVG converter using Cairo
pdftohtml — PDF to HTML converter
pdftoppm — PDF to PPM/PNG/JPEG image converter
pdftops — PDF to PostScript (PS) converter
pdftotext — text extraction
pdfunite — document merging tool
Sprawa skanów i ich wydruków, jest w sumie bardzo złożona. Czasem trzeba stracić trochę czasu, aby uzyskać zadowalający efekt.
Paperwork jest to rozwiązanie oparte na pythonie. Pierwszy raz go instalowałem przez pip. Prawie zepsułem system.
morfik, spróbuj scantailora, ostatecznie możesz go uruchomić na maszynie wirtualnej z Debianem buster. Zrobisz w nim to co planujesz.
jawojx napisał(-a):
ScanTailor, wyleciał, bo wszystko z qt4 z Debiana 11 wyleciało, to wiadomo. Ale jest fork scantailor-advanced z poprawką na qt5 i kompiluje się bardzo dobrze w Debianie 11, to i do repo kiedyś trafi. .
Jak ja tego nie znalazłem to nie wiem. Dziękuję.
Ostatnio edytowany przez fnmirk (2021-10-21 00:11:21)
Offline
morfik napisał(-a):
Zadanie jest takie, by wydrukować ten pdf najmniejszym kosztem, tj. w back-white, a nie w skali szarości, co by pewnie zużyło cały toner.
Jak tonery kosztują, to zawsze można uskutecznić spacerek do punktu Xero,
tylko trzeba koło 17, bo wcześniej u mnie studenty okupują.
Płacę za czarno-biały 10 groszy strona, kolor 40 groszy.
Wychodzi taniej, niż prąd i toner w drukarce, o atramentach nie wspominając.
Najtrudniejszym problemem jest znaleźć wolny pendrak,
chociaż z cegłofona czy maila też wydrukują.
:P
Pozdro
Ostatnio edytowany przez Jacekalex (2021-10-21 00:12:37)
Online
Czarno-biała drukarka laserowa też jest opłacalna. Przy dużej ilości wydruków.
Dodane:
W przypadku ocr sprawdzi się nakładka na tesseract-ocr: gImageReader:
https://packages.debian.org/bullseye/gimagereader
Oczywiście tabele i obrazki należy pomijać bo pod Linuksem są problemem. Pozwala skalować rozpoznawany obraz zwiększając zmniejszając jego rozdzielczość itp. Trochę kłopotliwe jest zaznaczanie kilku obszarów do rozpoznania, bo należy mieć cały czas wciśnięty klawisz Ctrl. Puszczenie go i przypadkowe kliknięcie na rozpoznawanym obrazku i musimy zaznaczać ponownie. Można się przyzwyczaić.
Dodane:
Program gImageReader pozwala na bezpośrednie wczytanie do rozpoznania pliku pdf. Ma kilka opcji: rozjaśnianie, obracanie itp.
Ostatnio edytowany przez fnmirk (2021-10-21 01:41:53)
Offline
Jacekalex napisał(-a):
Jak tonery kosztują, to zawsze można uskutecznić spacerek do punktu Xero,
tylko trzeba koło 17, bo wcześniej u mnie studenty okupują.
Płacę za czarno-biały 10 groszy strona, kolor 40 groszy.
No właśnie po to mam drukarkę, żeby nie latać po xero. Poza tym, toner do tej drukarki kosztuje więcej niż sama drukarka razem z tonerem (bo to używana była). xD Mam kilka zamienników za 25 zeta ale po co hajs marnować? Do tego jeszcze dochodzi sam wydruk na szarym tle, który czyni dokument bardzo nieczytelnym.
Ten scantailor-advanced też wygląda na opuszczony projekt. Ostatni update był 2 lata temu i chyba już nie troszczy się o niego nikt. Ale jak da radę go zbudować, to się nim pobawię.
Generalnie to ten mój dokument jest bardzo słabej jakości. Jak go potraktowałem trybem mono, to mi w zasadzie wypluł białą stronę z kilkoma czarnymi kropkami. Dlatego tutaj trzeba trochę bardziej się wysilić, żeby cokolwiek było widać. xD
Offline
Jak chcesz to sprawdź coś takiego:
https://packages.debian.org/bullseye/unpaper
Nie używałem go, bo scantailor robi to samo.
Offline
To wychodzi, że tekst chyba nie jest do końca czarny (ciemny, różny od tła). Możesz spróbować ten textcleaner, z ustawieniami przetworzenia do monochromatycznego, przed dalszą edycją. Z tym że on wymaga „orginalnego” imagemagick-a (zapomniałem o tym napisać) i nie działa prawidłowo z jego forkiem graphicsmagick.
I UWAGA: Jak się instaluje imagemagick to wyleci nie tylko graphicsmagick-imagemagick-compat, odpowiedzialne za udawanie kompatybilności tego pierwszego, ale jak ma się zainstalowany darktable, to i pakiety od niego polecą i nie będzie działał. Tylko to nie jest problem, można później przeinstalować te usunięte, przecież. Lub zrobić to na live Debianie.
Bez powiększania i prostowania linii (dla próby nie jest to potrzebne), z mocnym czyszczeniem tła, można spróbować tak.
./textcleaner -g -e normalize -f 80 -o 15 -s 1 in.jpg out.png
Możesz operować -f 80, jest to czyszczenie tła, reszta powinna być OK, wszystko opisane na stronie lub w pomocy -h, jak coś dodatkowo chcesz zmienić.
A jak możesz i materiał nie jest chroniony prawnie, to udostępnij jedną stronę w pdf-e. Z ciekawości zobaczę, co się da z tym zrobić.
Ostatnio edytowany przez jawojx (2021-10-21 20:10:22)
Offline
Tekst jest czarny, o tyle o ile przynajmniej. xD
Tu jest przykład strony:
https://i.imgur.com/UQgvD6y.png
Ten pdf ma 2,5M i ma tam koło 50 storn.
W łikend się pobawię i zobaczę czy coś więcej da radę ugrać w stosunku do tego polecenia z pierwszego posta.
Ostatnio edytowany przez morfik (2021-10-21 23:04:51)
Offline
To tak bez ustawiań, bo późno, a rano trzeba wstać. Jak zrobiłem tę próbę, to domyśliłem się, gdzie robisz błąd, jak jest słaby skan/foto tekstu, to pierwsze co trzeba zrobić to je powiększyć. A tesseract-ocr zrobił jakieś błędy, ale to nic nie było ustawiane pod te strony specjalnie, i nie jest tak, że nic się nie wyciągnie OCR-em. Bo tak tylko po oczyszczeniu, bez ocr-a, to zawsze to słabo wygląda w drukowaniu. Tekst, do porównania. A jutro/dzisiaj po pracy zobaczymy, co da się z tego wyciągnąć.
IV. SKRZYNKA POSUWÓW (NORTON) RYS. 65, 06 1. Dla wyjęcia wałka 160 i ażwigni 151 należy: al) wykręcić wkręt a czoła walka ! zdjąć podkładkę. a2. zdjąć koło mmianowe, wyjąć wpust z wałka i zdjąć podkładkę dystannową 178: a3, alumwać śrubę 307 (rys 06) w kitarze | zdjąć ją a korpusu 150 (rvs. 06); a4' wyxięcić wkręty z pokrywki 197 i zdjąć ią; a5: wybić wałek 100 przy użyciu pręta mosiężnego © 6—7 mm I młotka Ślusarskiego 0.5 xg z korpusu 130 I koła zębatego 163 osadzonego w przesuwnej dźwigni 151; a0' ściągnąć łożysko tocrne z wałka; a7) wybić sworzeń IS3: a6' odkręcić wkręty w przykrywce 176 ! zdjąć Ją; a0% wyjąć koła zębate I63 I 164. Ocrvścić wszystkie części zdemontowane | nasnarować. Po dopasowaniu wymie- nionych cześci montaż przeprowpdzić w odwrotnej kolejności do przeprowadzo- nego demontażu. 2 Dla wyjęcia wałka 159 należy: bi) wykonać demontaż wą pktów: al, a2, a3, jak wyźłej; bai zdjąć osłonę 233 po ziuzowaniu wkrętu mocującego ją (rys 02): b) wykręcić iruby mocujące korpus 150 I zdjąć go: b4''odkręcić wkręt zabezpieczający 808; b5) wybić walek 159 2 kół zębatych przez otwór tulej 165 przy pomocy mlotka ślusarzkiego 0.5 xg i preta mosiężnego O 6—7 mm oraz tuleję 165. Dnlszy demontaż nie nastręcza trudności. Po pczemyciu, wymianie części I po dopasowaniu ich, montaż przeprowadzić w odwrotnej kolejności wykonanego demontażu. V.ZAMEK I SUPORT RYS. 02, (7 al) zdjąć wspornik 223 z loża po uprzednim wykręceniu śrub MOCWĄCYCH i prze- sunięciu suportu z zamkiem pod wrzeciennik; a2) zdjąć konik z łoża: a3) usunąć suport z prowadnic loża łącznie z zamkiem i śrubą pociągową. Dia wyjęcia śruby pociągowej 2 nakrętki należr wybić kołek stożkowy z łącz- ntks 228 Dalszy demontaż jest prosty | nie wymaga opisu. Po oczyszczeniu, wy- mianie zużytych części i po dopasowaniu nowych, montaż przeprowadzić w ode wrotnej kolejności do wykonsnego demontażu. VI. NAPĘD RYS. 016 1. Dla wymiany lożysk kulkowych w przystawce należy: al) zwolnić paski klinowe I zdjąć je: a2) odkręcić śruby mocujące podstawę 401 do dolnej płyty szafki | wyjąć calą przystawkę; a3) odkręcic nakrętki z obu końców wałka 410; a4) zdjąć koła pasowe 403 i 404 i wyjąć wpusty z wałka: _ a3) odkręci! wkręty w pokrywach 406 | zdjąć je: 06) wyjąć wałek 410 łącznie z łożyskami toctnymi z ramienis wahliwego 400; 87) usunąć zużyte łożyska z wałka, Zdemontowane części oczyścić, wymienić łożysko toczne | zmontować w odwrotnej kolejności do wykonanego demoniażu. 2 Dla wyjęcia silnika elektrycznego należy: al' wyłączyć dopływ prądu 2 sieci; a2) odłączyć kable z pod kspy silnika lub zacisków na przełączniku: a3) zwolnić śruby mocujące silnik do sań | wysunąć go. Pozostale zespoły są proste i nie nastręczają trudności przy demontażu i montażu. Pamięć zawsze należy, by części do monisżu były oczyszczone, spasowane | nasmarowane. a. REWONT WYPOSAŻENIA SPECJALNEGO Suport obcinający rym. 014 Dia zdjęcia suportu górnego 301 należy: ni! wykręcić nakrętke ze zderzaka 317; a2) zdjąć rączzę 306 przez zwolnienie śruby zaciskowej; a3) zsunąć suport z prowadnicy dolnej płyty 360 w kierunku zderzeka 317.
Ostatnio edytowany przez jawojx (2021-10-22 00:29:33)
Offline
Panowie, to co próbujecie zrobić to jest sztuka dla sztuki. Z takiej jakości materiału bazowego, mam na myśli plik png to bez konwertowania na eps o odpowiedniej rozdzielczości nie uzyskacie przyzwoitej jakości wydruku. Bez względu na zastosowaną technikę, wydruk będzie nieczytelny. Nawet eps wyjdzie kiepski. Tracąc czas na obróbkę grafiki, lepiej jest wykonać ocr i złożyć ponownie. Problemem mogą być rysunki. Nimi można zająć się indywidualnie. Jednak lepiej mieć dobry tekst i kiepskie rysunki, niż jedno i drugie.
Plik pdf oryginalny, który ma morfik, już wprowadza duże straty, bo obrazy stron są w stratnym formacie jpg. Nawet z niego wydruk wyjdzie niezbyt czytelny. Jak znam życie to oryginalne skany (przed zrobieniem pdf) też były wykonane w technice stratnej.
Sprawdziłem rozpoznanie OCR tego pliku, bez żadnej korekty, rozpoznanie takie jest najlepsze. Ma najmniej błędów. Więc rozpoznanie ocr 50 stron takiej jakości, to jest jedno popołudnie, nawet bez doświadczenia w tej dziedzinie. Skantailor z tego obrazka niewiele zrobił. Jedynie usunął dobrze obramowanie.
Książka jest dobra do rozpoznania OCR, jedna kolumna tekstu. Do jej dobrego ponownego złożenia wystarczy LibreOffice. Nawet można uzyskać taki sam rozkład stron i format.
morfik, przejrzyj zasoby cyfrowych bibliotek, mogą mieć lepsze skany.
Np.: https://polona.pl/
Offline
fnmirk napisał(-a):
Panowie, to co próbujecie zrobić to jest sztuka dla sztuki. Z takiej jakości materiału bazowego, mam na myśli plik png to bez konwertowania na eps o odpowiedniej rozdzielczości nie uzyskacie przyzwoitej jakości wydruku. Bez względu na zastosowaną technikę, wydruk będzie nieczytelny. Nawet eps wyjdzie kiepski. Tracąc czas na obróbkę grafiki, lepiej jest wykonać ocr i złożyć ponownie. Problemem mogą być rysunki. Nimi można zająć się indywidualnie. Jednak lepiej mieć dobry tekst i kiepskie rysunki, niż jedno i drugie.
Nie wiem, dlaczego forma mnoga "panowie" :), ja od początku pisałem, by użyć OCR-a. Tekst z tego pliku wklejony wyżej, post 12, jest tylko z powiększonego obrazka. Normalnie OCR sam przygotowuje plik do przerobienia, nawet jak jakieś GUI wykorzystuje tesseract-a, to tak robi. Dlatego nie trzeba robić tego samemu. Ale jak korzystamy z tesseract-ocr, lub cuneiform-a, w trybie tekstowym, to sami musimy to zrobić. A zaleta, można sobie napisać skrypt i zapomnieć o całym problemie.
Dla mnie nie chodzi tu nawet o oszczędzanie tonera, to zawsze paskudnie wygląda, jak nie zrobi się tego przez ocr.
----------------------
Co do testu z plikiem.
Można poprawić tego jpeg-a, dla ocr-a można przekonwertować bez kolorów i powiększyć z lekkim wyostrzeniem i tyle wystarczy. (podaje oddzielnie może coś zaadoptujesz dla siebie).
Przygotowanie tego twojego pliku.
convert -sharpen 0x1 -resize 200% in.png out1.png convert -density 300 out1.png -colorspace Gray -median 2 -append out2.png
I tesseract-ocr.
tesseract --dpi 300 out2.png gotowy -l pol #<-- lub out1 można sprawdzić
I będzie taki wynik z tesseract-ocr, jest lepiej niż z nieczyszczonego, a pewnie można jeszcze lepiej przygotować ten twój plik dla ocr-a.
IV. SKRZYNKA POSUWÓW (NORTON) RYS. 05, 06 1. Dla wyjęcia wałke 160 I dźwigni 151 należy: al) wyzręcić wkręt z czoła wałku | zdjąć podkładkę; a2; zdjąć koło zmianówe, wyjąć wpust ż wałka i zdjąć podkładkę dystamiową 178; n3) zluwywnć śrubę 807 (rys 06) w kiturze | zdjąć ją z Korpusu 150 (rvs, 06); 4) wysręciće wkręty z pokrywki 177 i zdjąć ią; aj: wybić wałek 100 przy użyciu pręta mosiężnego © 6—7 mm I młotka ślusarskiego 05 kg z korpusu 150 I kola zębatego 153 osadzonego w przesuwnej dźwigni 151; a6) ściągnąć łożysko toctne z wałka; a7) wybić swarzeń 133; aB' odkręcić wkręty w przykrywce 178 I zdjąć ją; ad) wyjąć koła zębate 163.1 164 Oczyścić wszystkie części zdemontowane | nasmarować. Po dopzsowaniu wyrnie- nionych części montaż przeprowadzić w odwrotnej kolejności do przeprowadzo- nego demontażu. 2 Dla wyjęcia wałka 155 należy: bl) wykonać demontaż wę pktów: nl, aż, ad, jak wyżej; b2) zdjąć oslonę 233 pa zluzowanii wkrętu moctjącego Ją (rys. 02); b23) wykręcić śruby mocujące korpus 150 1 zdjąć go: bńi'odkręcić wkręt zabezpieczający 808; bój) wybić walłok 159 z kół zębatych przeż otwór tulej 165 przy pomócy młotka ślusarskiego 0,5 kg i pręta mosiężnego O 6—7 mtn orax tuleję 165. Dnlszy demontaż nię nastręcza trudności. Po ptzemyciu, wymienie części | po dopasowaniu ich, montnż przeprowadzić w odwrotnej kolejności wykonanego demontażu V. ZAMER I SUPORT RYS. 02, 07 ai) zdjąć wspornik 223 z loża po uprzednim wykręceniu śrub mocujących | prze- sunięciu suportu z zamkiem pod wrzeciennii: a2) zdjąć konik z łoża; a3) usunąć suport z prowudnic łoża łącznię z zamkiem i śrubą pociągową Dia wyjęcia śruby pociągowej z nakrętki należy wybić kołek stożkowy z lącz- nikn 228, Dalszy demontaż jest prosty | nie wymaga opisu, Po oczyszczeniu, wy- mianie zużytych części i po dopmsowania nowych, montaż przeprowadzić w od- wrotnej kolejności do wykonanego demontażu, VI, NAPĘD RYS. 010 1. Dla wymiany łożysk kulkowych w przystawce należy: a1) zwolnić paski klinowe I zdjąć je; a2) odkręcić śruby mocujące podstawę 401 do dolnej płyty szafki i wyjąć całą przystawkę; a3) odkręcic nnkrętki z obu końców wnłka 410; a4) zdjąć koła pasowe 403 i 404 I wyjąć wpusty z wałka; a5) odkręcić wkręty w pokrywach 406 | zdjąć je: a6) wyjąć wałek 410 łącznie z łożyskami tocznymi z ramienia wahliwego 400; n7) usunąć zużyte łożyska z wałka, Zdemontowaine części oczyścić, wymienić łożysko toczne I zmontować w odwrotnej kolejności do wykonanego demontażu. 2 Dla wyjęcia silnika elektrycznego należy: al! wyłuczyć dopływ prądu z sieci; a2) adłączyć kable z pod kapy silnika lub zacisków na prźełączniku: a3) zwolnić śruby mocujące silnik do sań 1 wysunąć zo. Pozostałe zespoły są proste i nie nastręczają trudności przy demontażu i montażu. Pamięwć zawsze należy, by części do. montsżu były oczyszczońe, spasowane | nasmarowane 1. REMONT WYPOSAŻENIA SPECJALNEGO Suport obcinający rys. 014 Dla zdjęcia suportu górnego 301 należy: ai) wykręcić nakrętkę ze zderzaka 317; a2) zdjąć ręczzę 306 przez zwolnienie śruby zaciskowej; ad) zsunąć suport z prowzdnicy dolnej płyty 300 w kierunku zderzaka 317.
Jak na taki słaby materiał to i tak nie jest źle, a pewnie da się przygotować obraz z tekstem lepiej. Z komercyjnym abbyy finereader będzie trochę lepiej, można też użyć coś na Aneroida, lub OCR ze strony, tylko że większość darmowych, korzysta i tak z tesseract-ocr.
Tesseract ma możliwość zapisywania do pdf, tylko on wciśnie tam to zdjęcie (trzeba mieć przygotowane lepsze, może takie jak na dole podałem) i doda tekst, co umożliwi kopiowanie go z pdf-u. Lepiej przygotować pdf samemu tylko z tekstem.
tesseract -l pol --dpi 300 in.png out pdf
Jeżeli chodzi o drukowanie z wyczyszczonego pliku, to pisałem, cytat:
„A z 2x większego obrazka, zrobionego przez pdftocairo było, jeszcze lepiej. Wynika z tego, że lepiej sprawdzić, czy tesseract-ocr sobie poradzi, niż drukować paskudne zdjęcia ze słabym tekstem, to będzie zawsze gorzej wyglądało.„
Nic wiele lepszego nie będzie, niż coś takiego, ale jest czytelne. UWAGA: Lepiej go pobrać i ustawić do wielkości strony, skompresował się i paskudnie wygląda na stronie, nawet powiększony. (Plik się skasują po 7 dniach. To jest jpg gorzej wygląd trochę niż oryginalny png, tu jest mniej ostry, ale 6x mniejszy na stronę.)
wget https://i.ibb.co/7CL9DPm/1.jpg
Przycięty converter-em, by usunąć cienie po załamaniu strony.
Textcleaner też można oczyścić twój plik, tylko przy tych ustawieniach zostaną kolorowe foty, przy drukowaniu monochromatycznym to i tak bez znaczenia.
textcleaner -f 30 in.png out.png
Lub tak, czcionki będą szare.
textcleaner -g -e normalize -f 30 -o 12 -s 2 in.png out.png
Skantailor, jak i żaden inny program, tak jak pisano wyżej, nie wiele tu zmieni (trochę), zawsze będą paskudne litery. Moje zdanie się nie zmienia, ja bym to robił OCR-em i składał. Moim celem było pokazanie, że nawet ze słabych obrazów z tekstem, da się użyć OCR-a. Lubie tesseract-ocr, chociaż nie jest doskonały, jak ma dobrze przygotowane zdjęcie to sobie poradzi.
Offline
jawojx, nie bądź taki drobiazgowy. Zwróciłem się do gremium biorącego udział w dyskusji.
Czas jaki upłynął od założenia wątku, to książka już powinna być obrobiona i złożona.
Ja uruchomiłem ten obrazek w Gimpie i w kilkanaście minut miałem informacje o jego wartości. Zawsze tak robię. Jeżeli w Gimpie nie uzyskam zadowalających efektów, to nie tracę czasu na dobieranie parametrów odnośnie jakiegoś filtru z imagemagicka.
Odnośnie tesseract-ocr to też go sobie chwalę, mimo jego wad odnośnie tabelek (rysunki można pominąć i obrobić osobno). Muszę stwierdzić, że tesseract-ocr nieźle się u mnie spisał, w bardzo trudnych przypadkach.
Tabelki rozpoznaję osobno, wierszami z pomocą gImageReader i później w Libre-office zmieniam tekst na tabele. Jest w nim taka opcja.
Offline
fnmirk napisał(-a):
...
Czas jaki upłynął od założenia wątku, to książka już powinna być obrobiona i złożona.
...
O, a to niby dlaczego, komu się tu śpieszy. To jest czas na wymianę doświadczeń, na naukę i szukanie rozwiązań, po to jest forum dyskusyjne. Jakby wszyscy dawali tylko linki do rozwiązań, to skąd by się brały te rozwiązania, na stronach. :)
Offline
Dyskusja, dyskusją, zawsze jest pouczająca. Ale jak ma się przed sobą do takiej obróbki książkę 500 stron (pięćset), w czterech kolumnach tekstu, dzielonego tabelkami i rysunkami, to 50 stron jednokolumnowego tekstu wydaje się zwykłą rozgrzewką.
Ja nie bawiłbym się w obróbkę graficzną tych stron tylko samych rysunków. Całego pdfa wczytałbym do programu gImageReader i potraktował wszystkie strony jego automatycznymi ustawieniami ocr. Jak uzyskany wynik będzie zadowalający to korekta i składanie z rysunkami. Jeżeli „automat” sobie nie poradzi to i tak kalkuluje się rozpoznawać strona po stronie, bo od razu robimy odpowiednią korektę, mając podgląd. Program ma opcję sprawdzania pisowni.
Program gImageReader warto sobie skonfigurować, aby wyświetlał w edytorze białe znaki. Posiada opcję automatycznego scalania akapitów oraz usuwania rozpoznanych znaków podziału wyrazów. Wczytując do programu gImageReader pdfa należy zignorować komunikat o tym, że pdf zawiera tekst, bo tak reaguje na każdego pdfa.
Offline
Znalazłem fajny program, jest w Debianie:
https://packages.debian.org/bullseye/krop
Praktycznie intuicyjny.
https://arminstraub.com/software/krop
https://arminstraub.com/software/krop-screenshots
morfik, usuniesz nim obramowania w pdf-ie.
Offline
No ten krop jest całkiem spoko — taki bardziej cywilizowany gimp. Można powycinać nim elementy i każdy taki wycięty element będzie składany do wynikowego pdf.
Co do pośpiechu to nie ma co się spieszyć, bo ten dokument już dawno został wydrukowany, tj. nawet przed rozpoczęciem wątku tutaj. Ale na przyszłość szukam lepszych rozwiązań i przy tym nieco bardziej zautomatyzowanych. xD
Co do OCR, no to jest lekkie nieporozumienie — przy tych błędach, które powstają, to trzeba by cały tekst zweryfikować ręcznie, a to zapewne by i tak nie odsiało wszystkich błędów, co z kolei by się wiązało ze stratą czasu chyba porównywalną z napisaniem wszystkiego ręcznie od początku. xD No bo co miałbym wywnioskować z takiego zapisu: bńi'odkręcić wkręt ? xD
gImageReader też jest sprzęgnięty z sporym stopniu z gnome.
Co do imagemagick, to nie mam zainstalowanego graphicsmagick-imagemagick-compat, ino:
# dpkg -l | grep -i imagemagic ii imagemagick 8:6.9.11.60+dfsg-1.3 amd64 image manipulation programs -- binaries ii imagemagick-6-common 8:6.9.11.60+dfsg-1.3 all image manipulation programs -- infrastructure ii imagemagick-6.q16 8:6.9.11.60+dfsg-1.3 amd64 image manipulation programs -- quantum depth Q16
Ale nigdzie w systemie mi nie znajduje tego textcleaner'a.
Na https://polona.pl/ nie ma nic związanego z tym dokumentem.
Ten pierwotny wydruk udało się poprawić trochę przez wyostrzenie, czyli w sumie te poniższe polecenia:
$ krop skan.pdf # by wyczyścić strony $ pdftocairo skan-cropped.pdf -png # by podzielić pdf na pojedyncze obrazki $ ls ./*.png | xargs -L1 -I {} convert {} -sharpen 0x1 -resize 200% {}.png # by wyostrzyć tekst
A potem jedno z tych dwóch:
$ ls ./*.png | xargs -L1 -I {} convert {} -quality 100 -density 300 -fill white -fuzz 70% +opaque "#000000" {}.png $ ls ./*.png | xargs -L1 -I {} convert {} -quality 100 -density 300 -colorspace rgb -monochrome -median 2 {}.png
Jak dla mnie to efekt jest nieco lepszy jak się z tego pierwszego polecenia skorzysta.
No i można zrobić z tego pdf i do druku.
$ convert *.png file.pdf
Offline
Ja, gdybym wcześniej trafił na program krop to w wielu wypadkach ułatwiłbym sobie pracę.
Jak chcesz sobie sprawdzić inne skany to spróbuj na takiej książce:
https://polona.pl/archive?uid=10939317&cid=122647814
Tu jest źródło książki:
https://polona.pl/item/prawidla-przystoynosci-i-oby … info:metadata
Książka jest niby rozpoznana i pdf tworzy tzw. „kanapkę”, to rozpoznany tekst jest kiepskiej jakości. Na stronie źródłowej można pobrać oryginalne obrazki, po zeskanowaniu (zrobieniu zdjęć dobrym aparatem cyfrowym) i można na tym potrenować.
Offline
morfik napisał(-a):
No ten krop jest całkiem spoko — taki bardziej cywilizowany gimp. Można powycinać nim elementy i każdy taki wycięty element będzie składany do wynikowego pdf.
To już lepiej ScanTailor-a używać, dotnie i zrobi "czyszczenie", wszystko w jednym. A co do automatyzacji to pisałem, ja docinałem w convert, tylko zapomniałem podać przykład. Robi się inny schemat dla parzystych i inny dla nieparzystych (prawych, lewych, po rożnych stronach obcinamy i inne ustawienia zakresu mogą być) i z automatu obrabia wszystko naraz, jak jest taka potrzeba.
Dla przykładu, twoja "nieparzysta" strona potrzebuje odcięcia tylko po lewej stronie (nie trzeba wycinać z środka, bo można i samo miejsce z tekstem). Z pobraniem tego udostępnionego, by przykład był na właściwym pliku. Wygląda to tak.
wget -O inX.png https://i.imgur.com/UQgvD6y.png ; convert -resize 200% -sharpen 0x3 -density 300 inX.png -threshold 65% -crop 2000x3510+480+0 outX.png
Składnia na tyle prosta, że nie opisuję. Tylko że, dla OCR-a to nie jest najlepszy plik, ale wiemy, ma być szybko i do druku.
morfik napisał(-a):
Co do OCR, no to jest lekkie nieporozumienie — przy tych błędach, które powstają, to trzeba by cały tekst zweryfikować ręcznie, a to zapewne by i tak nie odsiało wszystkich błędów, co z kolei by się wiązało ze stratą czasu chyba porównywalną z napisaniem wszystkiego ręcznie od początku. xD No bo co miałbym wywnioskować z takiego zapisu: bńi'odkręcić wkręt ? xD
No ja tam widzę "b4)* odkręcić wkręt ...", a tak poważnie, to znaki specjalne nie są najmocniejszą stroną tesseract-a. "Nobody is perfect" spróbuj komercyjnym, tak jak pisałem wyżej. :) Najlepsze efekty ma się gdy dokument skanuje się z odpowiednimi ustawieniami dla tekstu i nie do formatu stratnego (lub mniej skompresowanego). Twój wyjściowy plik skompresowany wielokrotnie do jpeg-a, co pogarsza wynik końcowy.
morfik napisał(-a):
Co do imagemagick, to nie mam zainstalowanego graphicsmagick-imagemagick-compat, ino:
... ...
Ale nigdzie w systemie mi nie znajduje tego textcleaner'a.
No to dobrze, że właściwy program, nic nie będziesz musiał zmieniać, by działał textcleaner. To jest skrypt ze strony imagemegic (dostarczany oddzielnie), ułatwiający posługiwanie się ich programem convert, tylko w jednym celu, oczyszczenia tekstu na skanie/zdjęciu, podałem tam wyżej, link do pobrania i opisu.
fnmirk napisał(-a):
....Książka jest niby rozpoznana i pdf tworzy tzw. „kanapkę”, to rozpoznany tekst jest kiepskiej jakości. Na stronie źródłowej można pobrać oryginalne obrazki, po zeskanowaniu (zrobieniu zdjęć dobrym aparatem cyfrowym) i można na tym potrenować.
Szybki test.
Wynik tesseract-a z pobranego jpg-a (skompresowanego), a drugi to tekst wbudowany w pdf-a, strona 11 (w pdf-17). Jak widać, obydwa teksty odbiegają od oryginału, choć oczywiście tekst pierwszy jest gorszy, ale oryginalny tekst na pewno nie był przygotowany (rozpoznawanie znaków zrobione) z tego jpg-a, a pewnie z tif-a, a i tak jest manie. A nie chce mi się logować, by sprawdzić, czy są lepszy obrazy.
Tesseract-a:
Nie czyń też hałasu, kraiąe mięso. kosci nie sczójdy, a tćm bairdziey nie gryż zębami, lako tez i orzechów. 16. Supy nie iedz z wazy. lecz weź so- bie na talćra: ieźcli zaś iest gorąca bordzo ie.t recz vie przystoynż, dmuchać naskaż ią lyzkę: trzeba więc czekać, aż trochę ochlódsie-
Umieszczony w PDF-e, też nie najlepiej.
Nie czyń też hałasu, kraiąe mięso. kości nie sczeyay, a tern birJziey nie gryź zębami, iako też i orzechów. 16. Snpy nie ieIz z wazy, lecz wrź so“ bie na talerz: jeżeli zaś iest gorąca- bohlzo i«.t rzecz nie przystoyńa, dmucha'. tu. każdą fvzkj: trzeba więc czekać, aż trochę ocidid >i*
Wszystko zależy co się ma na starcie, albo ma się dużo pracy, albo dobry materiał.
Offline
jawojx napisał(-a):
No to dobrze, że właściwy program, nic nie będziesz musiał zmieniać, by działał textcleaner. To jest skrypt ze strony imagemegic (dostarczany oddzielnie), ułatwiający posługiwanie się ich programem convert, tylko w jednym celu, oczyszczenia tekstu na skanie/zdjęciu, podałem tam wyżej, link do pobrania i opisu.
Ok widzę. xD
Offline
Włąsnie jaką drukarkę polecicie ? do drukowania kolorowych skanów najlepiej chyba Epson. Aczkolwiek nie mam na razie, bo kasy nie mam żeby kupić.
Offline
Strony: 1