MinerU
MinerU copied to clipboard

Published 20 hours ago •

Reame
Issues

部分页面识别结果不准确

Open WyHy opened this issue 7 months ago • 3 comments

Description of the bug | 错误描述

在我的case中，结果不准确包含以下几方面：

文本内容未识别，如第1页的“甲状腺专科专家委员会...”；第10页最上面的标题“糖化血红蛋白”；第14页的“未检项目”
检测框位置不准确，如第3页的上半页，检测框有点偏上，导致最后一行只截取了一半
识别文本内容不完成，如第4页最上面的“体检所见：右眼...”，只识别出了“左眼...”文本

大部分情况下，结果是准确的。我想了解下，以上问题出现的原因及解决方案，非常感谢

How to reproduce the bug | 如何复现

test.pdf magic-pdf pdf-command --pdf "test.pdf" --inside_model true

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Device mode | 设备模式

cuda

Jul 15 '24 14:07 WyHy