MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

pdf文件表格内容提取

Open shibainu-gbq opened this issue 1 year ago • 6 comments

部署后,测试多篇文档,查看到pdf提取的表格都是已图片的形式存在,查看所有中间json文件并无表格内容,后续是否有表格内容的提取,包含并不限于表格内容提取文字、无线表格的提取以及表格内容拼接。

shibainu-gbq avatar Jul 22 '24 09:07 shibainu-gbq

https://github.com/RapidAI/TableStructureRec 这个专门识别表格

bigcat001 avatar Jul 23 '24 01:07 bigcat001

我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件 附上代码: image 以下是识别效果: image image image image

a273758104 avatar Jul 25 '24 06:07 a273758104

我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件 附上代码: image 以下是识别效果: image image image image

goodjob,paddle的表格识别接入还是比较容易实现的,我们想把表格识别做的更好,因此没直接使用paddle的表格模块,可以等我们下个版本集成自研的表格识别之后对比下效果。

myhloli avatar Jul 25 '24 08:07 myhloli

我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件 附上代码: 以下是识别效果: 图像 图像 图像 图像 图像

我按照这样修改后,最终的结果为什么还是图片形式?

+1, 修改之后try里面的东西每次都不会成功,以至于每次都输出图片格式,请问怎么解决呢

JiangRunzhi avatar Jul 29 '24 09:07 JiangRunzhi

我添加了识别表格的代码,效果还不错,修改ocr_mkconent.py这个文件 附上代码: 以下是识别效果: ![图像] ![图像] ![图像]![图像] ![图像] 你好,经过测试在修改后有一句话是会报错的,下图标红那句话,会显示找不到图片 屏幕截图 2024-08-01 105359

2257396011 avatar Aug 01 '24 03:08 2257396011

实际使用上,paddle的识别率其实比较低,对于有框表识别较好,对于无线表或者虚线表识别起来还是比较差强人意

shibainu-gbq avatar Aug 01 '24 06:08 shibainu-gbq