MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

PDF转md之后识别的标题均为一级标题和PDF源文件标题结构不符

Open liudanyang666 opened this issue 7 months ago • 3 comments

🔎 Search before asking | 提交之前请先搜索

  • [x] I have searched the MinerU Readme and found no similar bug report.
  • [x] I have searched the MinerU Issues and found no similar bug report.
  • [x] I have searched the MinerU Discussions and found no similar bug report.

Description of the bug | 错误描述

同一个PDF文件调用web-api识别转md之后发现识别的标题均为一级标题,与PDF源文件中的标题结构不符合;而在这个链接https://www.modelscope.cn/studios/OpenDataLab/MinerU 上上传同一个PDF文件转换后的结果标题结构是正确的,存在一级标题、二级标题、三级标题、正文等

How to reproduce the bug | 如何复现

同一个PDF文件调用web-api识别转md之后发现识别的标题均为一级标题,与PDF源文件中的标题结构不符合;而在这个链接https://www.modelscope.cn/studios/OpenDataLab/MinerU 上上传同一个PDF文件转换后的结果标题结构是正确的,存在一级标题、二级标题、三级标题、正文等

Operating System Mode | 操作系统类型

No response

Operating System Version| 操作系统版本

CentOS 7.6

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

1.2.x

Device mode | 设备模式

cuda

liudanyang666 avatar May 22 '25 03:05 liudanyang666

我也苦于 标题结构损失的问题

yutouaa avatar May 23 '25 06:05 yutouaa

同样的问题,使用web_api 识别不出来目录结构,只能知道是不是目录,这个应该怎么解决

WarnerWang avatar May 26 '25 08:05 WarnerWang

同样问题,没有层次。线上版本和开源的居然2套代码,是想分商业和社区版么?

jlcbj avatar May 28 '25 03:05 jlcbj

遇到了同样的问题,有解决方法吗

surmount1 avatar May 29 '25 08:05 surmount1

多扒一下issue和配置文件。都有解决办法

wychenzhou avatar May 30 '25 09:05 wychenzhou

倒是给个提示呀,应该看哪部分?哪个issue?哪个配置文件?这都是找不到才问的呀

wangjie1232 avatar May 30 '25 11:05 wangjie1232

找到了https://github.com/opendatalab/MinerU/issues/1730 这个issues有说

wangjie1232 avatar May 30 '25 11:05 wangjie1232