pdf2docx icon indicating copy to clipboard operation
pdf2docx copied to clipboard

表格表头数据提取不出来

Open fefefefefefe opened this issue 2 years ago • 2 comments

首先 感谢大佬提供这么好的工具! 在使用extract table方法的时候 提出的数据有遗漏 如图 image

测试文件:

test1.pdf

fefefefefefe avatar May 17 '23 03:05 fefefefefefe

def get_table_info_from_pdf(self):
    self.result = []
    print(sys.path)
    # Use a breakpoint in the code line below to debug your script.
    print(f'Params: , {self.path}  {self.start_page} {self.end_page}')
    cv = Converter(self.path)
    # tables = cv.extract_tables(start=self.start_page, end=self.start_page+2)
    tables = cv.extract_tables(start=self.start_page, end=self.end_page, multi_processing=True, cpu_count=4,
                               ignore_page_error=False, debug=True)

fefefefefefe avatar May 17 '23 03:05 fefefefefefe

Братик, тебе надо иттерироватся по max_border_width. У меня была аналогичная проблема при max_border_width=0.5 все успешно отработало. Но иногда может потребоваться переборка параметров для корректного извлечения данных

eetap avatar Jun 02 '23 12:06 eetap