Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2014-05-08 00:46:42

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/random
Zarejestrowany: 2008-01-07

Czym konwertować PDF do XML?

Cześć

Mam trochę wyciągów z banku, które chciałbym w miarę bezstresowo zapakować do bazy SQL, a same wyciągi są w PeDOFilach.

Kształt dosyć standardowy, mniej więcej taki, jak w Mbanku.

Kłopot polega na tym, ze po potraktowaniu takiego wyciągu pdftotext robi się kaszanka, której parsowanie, to horror, tabelka w PDF - na wyjściu każda nazwa, data i kwota w osobnej linii.

Dlatego fajnie byłby konwertować bezpośrednio do XML albo csv, te formaty są znacznie łatwiejsze do obróbki.


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#2  2014-05-08 01:22:22

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Czym konwertować PDF do XML?

może po prostu pdf2xml
albo pdf2html i potem perl do obróbki (całkiem nieźle sobie radzi z html)


LRU: #472938
napisz do mnie: ola@mojmail.eu
Hołmpejdż | Galerie | "Twórczość" || Free Image Hosting

Offline

 

#3  2014-05-08 01:36:21

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/random
Zarejestrowany: 2008-01-07

Re: Czym konwertować PDF do XML?

Z html'em próbowałem, i mam jedno wielkie pole BODY, w nim cały wyciąg, tabelka rozsypana, tylko znaczniki nowych wierszy <br>.
Sytuacja taka sama, jak z pdftotext.

Ciekawe, czy ten pdf2xml coś pomoże.


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#4  2014-06-15 14:51:18

  ethanak - Użytkownik

ethanak
Użytkownik
Skąd: Ungwenor
Zarejestrowany: 2010-07-19
Serwis

Re: Czym konwertować PDF do XML?

jeszcze aktualne? bo mam zrobiony systemik (cs co prawda ale na parę funkcji można przymknąć oko) do parsowania wyciągów z mbanku, pdf2html plus parę linijek w pythonie... daj znać na prv bo rzadko tu zaglądam.


Nim mechaniczne larum zagrasz mi, kanalio,
głosząc nadejście Javy - śmiertelnego wroga!
Zespół Adwokacki Dyskrecja

Offline

 

#5  2014-06-15 16:11:22

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/random
Zarejestrowany: 2008-01-07

Re: Czym konwertować PDF do XML?

Niezbyt aktualne, poradziłem sobie na piechotę, nie było tego aż tyle, żeby to było niewykonalne.

Ale jak masz jakiegoś gotowca do Mbanku, to możesz go wrzucić,
nie twierdzę że konkretnie mnie, ale setce innych pacjentów się pewnie przyda. ;)
Mbank po pdf2html jest czytelny i ma prostą strukturę dokumentu, gdzie bez kłopotu się wyczesuje odpowiednie zmienne.

Tu miałem o całe piekło trudniejszy przypadek z jednego francuskiego banku, który na swojej stronie z serwisem online był jeszcze  niedawno na  etapie ActiveX, a wyciągi wyglądają nie lepiej. ;P

Pozdro
;-)

Ostatnio edytowany przez Jacekalex (2014-06-15 16:18:21)


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
Nas ludzie lubią po prostu, a nie klikając w przyciski ;-)