Forum Debian Users Gang

Jacekalex · 2014-05-08 00:46:42

Cześć

Mam trochę wyciągów z banku, które chciałbym w miarę bezstresowo zapakować do bazy SQL, a same wyciągi są w PeDOFilach.

Kształt dosyć standardowy, mniej więcej taki, jak w Mbanku.

Kłopot polega na tym, ze po potraktowaniu takiego wyciągu pdftotext robi się kaszanka, której parsowanie, to horror, tabelka w PDF - na wyjściu każda nazwa, data i kwota w osobnej linii.

Dlatego fajnie byłby konwertować bezpośrednio do XML albo csv, te formaty są znacznie łatwiejsze do obróbki.

winnetou · 2014-05-08 01:22:22

może po prostu pdf2xml
albo pdf2html i potem perl do obróbki (całkiem nieźle sobie radzi z html)

Jacekalex · 2014-05-08 01:36:21

Z html'em próbowałem, i mam jedno wielkie pole BODY, w nim cały wyciąg, tabelka rozsypana, tylko znaczniki nowych wierszy <br>.
Sytuacja taka sama, jak z pdftotext.

Ciekawe, czy ten pdf2xml coś pomoże.

ethanak · 2014-06-15 14:51:18

jeszcze aktualne? bo mam zrobiony systemik (cs co prawda ale na parę funkcji można przymknąć oko) do parsowania wyciągów z mbanku, pdf2html plus parę linijek w pythonie... daj znać na prv bo rzadko tu zaglądam.

Jacekalex · 2014-06-15 16:11:22

Niezbyt aktualne, poradziłem sobie na piechotę, nie było tego aż tyle, żeby to było niewykonalne.

Ale jak masz jakiegoś gotowca do Mbanku, to możesz go wrzucić,
nie twierdzę że konkretnie mnie, ale setce innych pacjentów się pewnie przyda. ;)
Mbank po pdf2html jest czytelny i ma prostą strukturę dokumentu, gdzie bez kłopotu się wyczesuje odpowiednie zmienne.

Tu miałem o całe piekło trudniejszy przypadek z jednego francuskiego banku, który na swojej stronie z serwisem online był jeszcze niedawno na etapie ActiveX, a wyciągi wyglądają nie lepiej. ;P

Pozdro
;-)

Ostatnio edytowany przez Jacekalex (2014-06-15 16:18:21)

Forum Debian Users Gang

Ogłoszenie

#1 2014-05-08 00:46:42

Jacekalex - Podobno człowiek...;)

Czym konwertować PDF do XML?

#2 2014-05-08 01:22:22

winnetou - złodziej wirków ]:->

Re: Czym konwertować PDF do XML?

#3 2014-05-08 01:36:21

Jacekalex - Podobno człowiek...;)

Re: Czym konwertować PDF do XML?

#4 2014-06-15 14:51:18

ethanak - Użytkownik

Re: Czym konwertować PDF do XML?

#5 2014-06-15 16:11:22

Jacekalex - Podobno człowiek...;)

Re: Czym konwertować PDF do XML?

Stopka forum