MinerU

MinerU copied to clipboard

Published 1 week ago •

Reame
Issues

pdf文件表格内容提取

Open shibainu-gbq opened this issue 1 year ago • 6 comments

部署后，测试多篇文档，查看到pdf提取的表格都是已图片的形式存在，查看所有中间json文件并无表格内容，后续是否有表格内容的提取，包含并不限于表格内容提取文字、无线表格的提取以及表格内容拼接。

Jul 22 '24 09:07 shibainu-gbq

https://github.com/RapidAI/TableStructureRec 这个专门识别表格

Jul 23 '24 01:07 bigcat001

我添加了识别表格的代码，效果还不错，修改ocr_mkconent.py这个文件附上代码：以下是识别效果：

Jul 25 '24 06:07 a273758104

我添加了识别表格的代码，效果还不错，修改ocr_mkconent.py这个文件附上代码：以下是识别效果：

goodjob，paddle的表格识别接入还是比较容易实现的，我们想把表格识别做的更好，因此没直接使用paddle的表格模块，可以等我们下个版本集成自研的表格识别之后对比下效果。

Jul 25 '24 08:07 myhloli

我添加了识别表格的代码，效果还不错，修改ocr_mkconent.py这个文件附上代码：以下是识别效果：

我按照这样修改后，最终的结果为什么还是图片形式？

+1, 修改之后try里面的东西每次都不会成功，以至于每次都输出图片格式，请问怎么解决呢

Jul 29 '24 09:07 JiangRunzhi

我添加了识别表格的代码，效果还不错，修改ocr_mkconent.py这个文件附上代码：以下是识别效果： ![图像] ![图像] ![图像]![图像] ![图像] 你好，经过测试在修改后有一句话是会报错的，下图标红那句话，会显示找不到图片

Aug 01 '24 03:08 2257396011

实际使用上，paddle的识别率其实比较低，对于有框表识别较好，对于无线表或者虚线表识别起来还是比较差强人意

Aug 01 '24 06:08 shibainu-gbq