Snažil som sa výpis tabuliek z Pdf, ktoré nie sú v správnom formáte, ktoré, si myslím. Tabuľky v týchto Pdf mať tabuľku formát, ale nie sú uzatvorené riadne s verical hranice. Budem priložiť vzorku pdf a výstup s oboch knižníc. Keď som sa snažil používať tabula na stôl detekcie, prázdne datadrame sa vracia na všetkých stránok v pdf.
zadajte 0 pre jednotlivé stránky, 1 pre všetky, 2 pre konkrétnu stránku: 2 zadajte číslo stránky: 25 nájdené žiadne tabuľky na tejto stránke tabula.
A keď som sa použiť camelot nie je isté žiadnu odpoveď, keď som sa použiť flovor='lattice'
zadajte 0 pre jednotlivé stránky, 1 pre všetky stránky, 2 pre stránky v tabuľkách sú detekované tabula, 3 pre konkrétne stránky: 3 zadajte 0 pre lattice alebo 1 pre prúd: 0 zadajte číslo stránky: 25 nájdené žiadne tabuľky na tejto stránke camelot.
a keď som sa použiť flovor='stream'
Som si dataframe, ktoré má každý riadok prečítať riadok po riadku s oddelené tabulátorom údajov, ale to bude zahŕňať normálny text, ako aj v tom, že dataframe.
zadajte 0 pre jednotlivé stránky, 1 pre všetky stránky, 2 pre stránky v tabuľkách sú detekované tabula, 3 pre konkrétne stránky: 3 zadajte 0 pre lattice alebo 1 pre prúd: 1 zadajte číslo stránky: 25
Potrebujem len efektívny spôsob, ako zistiť stôl a extrakt rovnaké údaje, ak vertikálne obsahujúce tabuľky riadky nie sú prítomné. Obe tabula a camelot knižnice sú v poriadku, ak tabuľka je v správnom formáte ohraničená vertikálne a horizontálne čiary.