MinerU
MinerU copied to clipboard
图片PDF识别遗漏表格中间的文字
Description of the bug | 错误描述
对于一个图片型pdf, 一页中间有表格也有文字的.
minerU 把表格提取成了图片, 却遗漏了表格中间的文字.
效果截图(线上demo)
对应的PDF文件 origin (dragged).pdf
How to reproduce the bug | 如何复现
线上官方demo.
本地运行 magic-pdf -p xx.pdf -o output 结果一样
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.6.x
Device mode | 设备模式
cuda