Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Cześć
Mam trochę wyciągów z banku, które chciałbym w miarę bezstresowo zapakować do bazy SQL, a same wyciągi są w PeDOFilach.
Kształt dosyć standardowy, mniej więcej taki, jak w Mbanku.
Kłopot polega na tym, ze po potraktowaniu takiego wyciągu pdftotext robi się kaszanka, której parsowanie, to horror, tabelka w PDF - na wyjściu każda nazwa, data i kwota w osobnej linii.
Dlatego fajnie byłby konwertować bezpośrednio do XML albo csv, te formaty są znacznie łatwiejsze do obróbki.
Offline
może po prostu pdf2xml
albo pdf2html i potem perl do obróbki (całkiem nieźle sobie radzi z html)
Offline
Z html'em próbowałem, i mam jedno wielkie pole BODY, w nim cały wyciąg, tabelka rozsypana, tylko znaczniki nowych wierszy <br>.
Sytuacja taka sama, jak z pdftotext.
Ciekawe, czy ten pdf2xml coś pomoże.
Offline
jeszcze aktualne? bo mam zrobiony systemik (cs co prawda ale na parę funkcji można przymknąć oko) do parsowania wyciągów z mbanku, pdf2html plus parę linijek w pythonie... daj znać na prv bo rzadko tu zaglądam.
Offline
Niezbyt aktualne, poradziłem sobie na piechotę, nie było tego aż tyle, żeby to było niewykonalne.
Ale jak masz jakiegoś gotowca do Mbanku, to możesz go wrzucić,
nie twierdzę że konkretnie mnie, ale setce innych pacjentów się pewnie przyda. ;)
Mbank po pdf2html jest czytelny i ma prostą strukturę dokumentu, gdzie bez kłopotu się wyczesuje odpowiednie zmienne.
Tu miałem o całe piekło trudniejszy przypadek z jednego francuskiego banku, który na swojej stronie z serwisem online był jeszcze niedawno na etapie ActiveX, a wyciągi wyglądają nie lepiej. ;P
Pozdro
;-)
Ostatnio edytowany przez Jacekalex (2014-06-15 16:18:21)
Offline