MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

把表格内容当成图片进行输出,而没有进行文字识别输出

Open UFOyyds opened this issue 1 year ago • 6 comments

Description of the bug | 错误描述

作者大佬您好,给您描述一个也许是Bug的问题,MinerU每次转换出的Markdown中,都将我原本PDF中的“表格内容”当成了“图片”,进行单独的 image 输出,而不能进行完整的文本解析: image

How to reproduce the bug | 如何复现

请问这个是需要我调整JSON文件中的啥代码吗?(例如:将magic-pdf. json 文件中 "is_table_recog_enable": false, 里的 false 改为 true ? )多谢! image

Operating system | 操作系统

Windows

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.6.x

Device mode | 设备模式

cpu

UFOyyds avatar Aug 05 '24 07:08 UFOyyds

表格解析能力目前还没有正式上线,0.6.x版本表格是作为图片直接保存到本地的,如果需要表格解析功能,需要等待0.7.x版本release。

myhloli avatar Aug 05 '24 07:08 myhloli

+1,0.7.x版本预计什么时候release

freedom1993 avatar Aug 05 '24 07:08 freedom1993

不想要图片怎么设置呢,只想要图片里面的一些文字信息

zouhuigang avatar Aug 05 '24 08:08 zouhuigang

如果有cuda加速的话,可以将table-config中的参数设置为true,看一下表格的latex输出效果

papayalove avatar Aug 05 '24 08:08 papayalove

只有cpu的话,也可以跑一下,但是表格处理时间会很长

papayalove avatar Aug 05 '24 08:08 papayalove

不想要图片怎么设置呢,只想要图片里面的一些文字信息

in the output directory find XXX_content_list.json, concat all elements with ignoring type equals images or table

drunkpig avatar Aug 08 '24 05:08 drunkpig