pdf文件表格内容提取
部署后,测试多篇文档,查看到pdf提取的表格都是已图片的形式存在,查看所有中间json文件并无表格内容,后续是否有表格内容的提取,包含并不限于表格内容提取文字、无线表格的提取以及表格内容拼接。
https://github.com/RapidAI/TableStructureRec 这个专门识别表格
我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件
附上代码:
以下是识别效果:
我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件 附上代码:
以下是识别效果:
![]()
![]()
![]()
goodjob,paddle的表格识别接入还是比较容易实现的,我们想把表格识别做的更好,因此没直接使用paddle的表格模块,可以等我们下个版本集成自研的表格识别之后对比下效果。
我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件 附上代码: 以下是识别效果:
![]()
![]()
![]()
![]()
我按照这样修改后,最终的结果为什么还是图片形式?
+1, 修改之后try里面的东西每次都不会成功,以至于每次都输出图片格式,请问怎么解决呢
我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件 附上代码: 以下是识别效果: ![图像] ![图像] ![图像]![图像] ![图像] 你好,经过测试在修改后有一句话是会报错的,下图标红那句话,会显示找不到图片
实际使用上,paddle的识别率其实比较低,对于有框表识别较好,对于无线表或者虚线表识别起来还是比较差强人意
以下是识别效果:

