Langchain-Chatchat [FEATURE] 双栏pdf识别问题

[FEATURE] 双栏pdf识别问题

Open xxcoco763 opened this issue 2 years ago • 3 comments

试了一下模型，感觉对单栏pdf识别的准确性较高，但是由于使用的基本是ocr的技术，对一些双栏pdf论文识别出来有很多问题，请问有什么办法改善吗？

May 22 '23 10:05 xxcoco763

推荐走专门的智能ocr工具，表单识别器，百度iocr之类的，支持标注几个版式模板，识别同版式pdf的内容。

May 24 '23 08:05 cindymuji

发现用了更新后的paddleocr效果已经有了比较明显的提升，谢谢！但是表格的内容还是无法检索，我感觉是不是还受到分句的影响，所以很难完整概括整个表格？

May 26 '23 09:05 xxcoco763

对表格数据的处理应该需要单独的优化

May 26 '23 09:05 imClumsyPanda