MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

部分页面识别结果不准确

Open WyHy opened this issue 7 months ago • 3 comments

Description of the bug | 错误描述

在我的case中,结果不准确包含以下几方面:

  1. 文本内容未识别,如第1页的“甲状腺专科专家委员会...”;第10页最上面的标题“糖化血红蛋白”;第14页的“未检项目”
  2. 检测框位置不准确,如第3页的上半页,检测框有点偏上,导致最后一行只截取了一半
  3. 识别文本内容不完成,如第4页最上面的“体检所见:右眼...”,只识别出了“左眼...”文本

大部分情况下,结果是准确的。我想了解下,以上问题出现的原因及解决方案,非常感谢

How to reproduce the bug | 如何复现

test.pdf magic-pdf pdf-command --pdf "test.pdf" --inside_model true

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Device mode | 设备模式

cuda

WyHy avatar Jul 15 '24 14:07 WyHy