MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

图片PDF识别遗漏表格中间的文字

Open albertshx opened this issue 6 months ago • 5 comments

Description of the bug | 错误描述

对于一个图片型pdf, 一页中间有表格也有文字的. minerU 把表格提取成了图片, 却遗漏了表格中间的文字. 效果截图(线上demo) lQLPKIIQ0YeosD_NA4bNBx2wdJxHAVSnnQoGn0Eea-_RAA_1821_902

对应的PDF文件 origin (dragged).pdf

How to reproduce the bug | 如何复现

线上官方demo.

本地运行 magic-pdf -p xx.pdf -o output 结果一样

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.6.x

Device mode | 设备模式

cuda

albertshx avatar Aug 09 '24 09:08 albertshx