MinerU
MinerU copied to clipboard
部分页面识别结果不准确
Description of the bug | 错误描述
在我的case中,结果不准确包含以下几方面:
- 文本内容未识别,如第1页的“甲状腺专科专家委员会...”;第10页最上面的标题“糖化血红蛋白”;第14页的“未检项目”
- 检测框位置不准确,如第3页的上半页,检测框有点偏上,导致最后一行只截取了一半
- 识别文本内容不完成,如第4页最上面的“体检所见:右眼...”,只识别出了“左眼...”文本
大部分情况下,结果是准确的。我想了解下,以上问题出现的原因及解决方案,非常感谢
How to reproduce the bug | 如何复现
test.pdf
magic-pdf pdf-command --pdf "test.pdf" --inside_model true
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Device mode | 设备模式
cuda