pdf2docx
pdf2docx copied to clipboard
表格表头数据提取不出来
def get_table_info_from_pdf(self):
self.result = []
print(sys.path)
# Use a breakpoint in the code line below to debug your script.
print(f'Params: , {self.path} {self.start_page} {self.end_page}')
cv = Converter(self.path)
# tables = cv.extract_tables(start=self.start_page, end=self.start_page+2)
tables = cv.extract_tables(start=self.start_page, end=self.end_page, multi_processing=True, cpu_count=4,
ignore_page_error=False, debug=True)
Братик, тебе надо иттерироватся по max_border_width. У меня была аналогичная проблема при max_border_width=0.5 все успешно отработало. Но иногда может потребоваться переборка параметров для корректного извлечения данных