MinerU
MinerU copied to clipboard
标题消失问题
Description of the bug | 错误描述
解析完之后的标题为空,只有序号
轮胎设计_制造技术和法规进展及民族轮胎企业技术创新战略_危银涛.pdf
How to reproduce the bug | 如何复现
magic-pdf -p test.pdf
Operating system | 操作系统
Linux
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
0.7.x
Device mode | 设备模式
cuda
span在样本pdf中的分布和排版比较怪异,部分文本的span框超出了对应的layout边界,导致无法fill进result.
对于这种pdf,可以在命令行中添加-m ocr强制开启ocr模式,对应的标题文本就不会缺失。