Langchain-Chatchat
Langchain-Chatchat copied to clipboard
[FEATURE] 双栏pdf识别问题
试了一下模型,感觉对单栏pdf识别的准确性较高,但是由于使用的基本是ocr的技术,对一些双栏pdf论文识别出来有很多问题,请问有什么办法改善吗?
推荐走专门的智能ocr工具,表单识别器,百度iocr之类的,支持标注几个版式模板,识别同版式pdf的内容。
发现用了更新后的paddleocr效果已经有了比较明显的提升,谢谢!但是表格的内容还是无法检索,我感觉是不是还受到分句的影响,所以很难完整概括整个表格?
对表格数据的处理应该需要单独的优化