Langchain-Chatchat icon indicating copy to clipboard operation
Langchain-Chatchat copied to clipboard

[FEATURE] 双栏pdf识别问题

Open xxcoco763 opened this issue 2 years ago • 3 comments

试了一下模型,感觉对单栏pdf识别的准确性较高,但是由于使用的基本是ocr的技术,对一些双栏pdf论文识别出来有很多问题,请问有什么办法改善吗?

xxcoco763 avatar May 22 '23 10:05 xxcoco763

推荐走专门的智能ocr工具,表单识别器,百度iocr之类的,支持标注几个版式模板,识别同版式pdf的内容。

cindymuji avatar May 24 '23 08:05 cindymuji

发现用了更新后的paddleocr效果已经有了比较明显的提升,谢谢!但是表格的内容还是无法检索,我感觉是不是还受到分句的影响,所以很难完整概括整个表格?

xxcoco763 avatar May 26 '23 09:05 xxcoco763

对表格数据的处理应该需要单独的优化

imClumsyPanda avatar May 26 '23 09:05 imClumsyPanda