MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

开启表格解析后依然有大部分表格未被解析

Open mingyonga8 opened this issue 1 year ago • 6 comments

Description of the bug | 错误描述

CPU 环境,跑了三个小时,我把47页的pdf转为md时,开启struct_eqtable,发现许多表格依然是图片的形式存在于md中,甚至存在同一个表格横跨三页时只把最后一页的表格内容转化为了文本,第一页和第二页依然是图片的情况。

How to reproduce the bug | 如何复现

使用的最新的版本,mode用的struct_eqtable。只要把下载一个财务报告进行解析即可重现问题。

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.7.x

Device mode | 设备模式

cpu

mingyonga8 avatar Sep 05 '24 01:09 mingyonga8

When the eqtable model generates tables, it may time out. Then it can be assumed that the table parsing has failed. Therefore, an original image has been placed at the corresponding table location.

drunkpig avatar Sep 05 '24 01:09 drunkpig

When the eqtable model generates tables, it may time out. Then it can be assumed that the table parsing has failed. Therefore, an original image has been placed at the corresponding table location.

thanks,I try again.

mingyonga8 avatar Sep 05 '24 01:09 mingyonga8

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

mingyonga8 avatar Sep 05 '24 06:09 mingyonga8

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。

myhloli avatar Sep 05 '24 06:09 myhloli

Tablemaster

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。

使用Tablemaster解析问题更大,解析的结果是html 而且解析的完全不对,行列错乱。

mingyonga8 avatar Sep 05 '24 07:09 mingyonga8

Tablemaster

我把超时时间改为40000之后依然解析出错,直接报错 table解析fail。表格解析功能急需提升一下。

使用struct_eqtable时,输出的latex如果不以end{tabular}或end{table}结尾,我们会认为表格解析不完整,不信任模型输出的结果而使用图片代替,你可以试着在0.7.1以上的版本使用Tablemaster来解析表格。

使用Tablemaster解析问题更大,解析的结果是html 而且解析的完全不对,行列错乱。

而且对于合并单元格的情况无法准确提取表格数据,存在数据丢失的情况。

SuperDZ avatar Sep 05 '24 07:09 SuperDZ