pdf2docx 表格表头数据提取不出来

表格表头数据提取不出来

Open fefefefefefe opened this issue 2 years ago • 2 comments

首先感谢大佬提供这么好的工具！在使用extract table方法的时候提出的数据有遗漏如图

测试文件：

May 17 '23 03:05 fefefefefefe

def get_table_info_from_pdf(self):
    self.result = []
    print(sys.path)
    # Use a breakpoint in the code line below to debug your script.
    print(f'Params: , {self.path}  {self.start_page} {self.end_page}')
    cv = Converter(self.path)
    # tables = cv.extract_tables(start=self.start_page, end=self.start_page+2)
    tables = cv.extract_tables(start=self.start_page, end=self.end_page, multi_processing=True, cpu_count=4,
                               ignore_page_error=False, debug=True)

May 17 '23 03:05 fefefefefefe

Братик, тебе надо иттерироватся по max_border_width. У меня была аналогичная проблема при max_border_width=0.5 все успешно отработало. Но иногда может потребоваться переборка параметров для корректного извлечения данных

Jun 02 '23 12:06 eetap

pdf2docx pdf2docx copied to clipboard

表格表头数据提取不出来

pdf2docx
pdf2docx copied to clipboard