Tabuľky nie zistený s tabula a camelot

Question 1

Snažil som sa výpis tabuliek z Pdf, ktoré nie sú v správnom formáte, ktoré, si myslím. Tabuľky v týchto Pdf mať tabuľku formát, ale nie sú uzatvorené riadne s verical hranice. Budem priložiť vzorku pdf a výstup s oboch knižníc. Keď som sa snažil používať tabula na stôl detekcie, prázdne datadrame sa vracia na všetkých stránok v pdf.

zadajte 0 pre jednotlivé stránky, 1 pre všetky, 2 pre konkrétnu stránku: 2 zadajte číslo stránky: 25 nájdené žiadne tabuľky na tejto stránke tabula.

A keď som sa použiť camelot nie je isté žiadnu odpoveď, keď som sa použiť flovor='lattice'

zadajte 0 pre jednotlivé stránky, 1 pre všetky stránky, 2 pre stránky v tabuľkách sú detekované tabula, 3 pre konkrétne stránky: 3 zadajte 0 pre lattice alebo 1 pre prúd: 0 zadajte číslo stránky: 25 nájdené žiadne tabuľky na tejto stránke camelot.

a keď som sa použiť flovor='stream'Som si dataframe, ktoré má každý riadok prečítať riadok po riadku s oddelené tabulátorom údajov, ale to bude zahŕňať normálny text, ako aj v tom, že dataframe.

zadajte 0 pre jednotlivé stránky, 1 pre všetky stránky, 2 pre stránky v tabuľkách sú detekované tabula, 3 pre konkrétne stránky: 3 zadajte 0 pre lattice alebo 1 pre prúd: 1 zadajte číslo stránky: 25

Potrebujem len efektívny spôsob, ako zistiť stôl a extrakt rovnaké údaje, ak vertikálne obsahujúce tabuľky riadky nie sú prítomné. Obe tabula a camelot knižnice sú v poriadku, ak tabuľka je v správnom formáte ohraničená vertikálne a horizontálne čiary.

Question 2

Táto metóda vám môže pomôcť: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

Môžete nájsť špecifikovať vertikálne separátor na camelot zložením x súradnice, najprv by ste mali používať ".pozemok()" metóda v camelot, aby viď tabuľka vo vnútri pdf a berte x súradnice, kde chcete vertikálne seperators potom preniesť ich, ako je to uvedené nižšie:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2'])

Question 3

Tabuľky nie zistený s tabula a camelot

Bol som nedávno v práci na extrakt z tabuľky vo formáte PDF.

Tabula a camelot nie je práca pre mňa, ale buď pdfplumber ma požadovaným výsledkom.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)

Mahmud Alptekin · Answer 1 · 2021-11-22T15:52:19

Táto metóda vám môže pomôcť: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

Môžete nájsť špecifikovať vertikálne separátor na camelot zložením x súradnice, najprv by ste mali používať ".pozemok()" metóda v camelot, aby viď tabuľka vo vnútri pdf a berte x súradnice, kde chcete vertikálne seperators potom preniesť ich, ako je to uvedené nižšie:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2'])

DS_ShraShetty · Answer 2 · 2021-11-27T11:30:02

Tabuľky nie zistený s tabula a camelot

Bol som nedávno v práci na extrakt z tabuľky vo formáte PDF.

Tabula a camelot nie je práca pre mňa, ale buď pdfplumber ma požadovaným výsledkom.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)

Tabuľky nie zistený s tabula a camelot

Otázka

Najlepšiu odpoveď

Tabuľky nie zistený s tabula a camelot

V iných jazykoch

Táto stránka je v iných jazykoch

Populárne v tejto kategórii

Obľúbené otázky v tejto kategórii