MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

标题消失问题

Open cskkx1 opened this issue 1 year ago • 2 comments

Description of the bug | 错误描述

解析完之后的标题为空,只有序号 1724033963512

1724034237623

轮胎设计_制造技术和法规进展及民族轮胎企业技术创新战略_危银涛.pdf

我国子午线轮胎技术概况_王锋.pdf

How to reproduce the bug | 如何复现

magic-pdf -p test.pdf

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.7.x

Device mode | 设备模式

cuda

cskkx1 avatar Aug 19 '24 02:08 cskkx1

span在样本pdf中的分布和排版比较怪异,部分文本的span框超出了对应的layout边界,导致无法fill进result. 对于这种pdf,可以在命令行中添加-m ocr强制开启ocr模式,对应的标题文本就不会缺失。

myhloli avatar Aug 19 '24 03:08 myhloli

1724038099942 1724038282437 谢谢大佬,标题文本有了

cskkx1 avatar Aug 19 '24 03:08 cskkx1