PDF转md之后识别的标题均为一级标题和PDF源文件标题结构不符
🔎 Search before asking | 提交之前请先搜索
- [x] I have searched the MinerU Readme and found no similar bug report.
- [x] I have searched the MinerU Issues and found no similar bug report.
- [x] I have searched the MinerU Discussions and found no similar bug report.
Description of the bug | 错误描述
同一个PDF文件调用web-api识别转md之后发现识别的标题均为一级标题,与PDF源文件中的标题结构不符合;而在这个链接https://www.modelscope.cn/studios/OpenDataLab/MinerU 上上传同一个PDF文件转换后的结果标题结构是正确的,存在一级标题、二级标题、三级标题、正文等
How to reproduce the bug | 如何复现
同一个PDF文件调用web-api识别转md之后发现识别的标题均为一级标题,与PDF源文件中的标题结构不符合;而在这个链接https://www.modelscope.cn/studios/OpenDataLab/MinerU 上上传同一个PDF文件转换后的结果标题结构是正确的,存在一级标题、二级标题、三级标题、正文等
Operating System Mode | 操作系统类型
No response
Operating System Version| 操作系统版本
CentOS 7.6
Python version | Python 版本
3.10
Software version | 软件版本 (magic-pdf --version)
1.2.x
Device mode | 设备模式
cuda
我也苦于 标题结构损失的问题
同样的问题,使用web_api 识别不出来目录结构,只能知道是不是目录,这个应该怎么解决
同样问题,没有层次。线上版本和开源的居然2套代码,是想分商业和社区版么?
遇到了同样的问题,有解决方法吗
多扒一下issue和配置文件。都有解决办法
倒是给个提示呀,应该看哪部分?哪个issue?哪个配置文件?这都是找不到才问的呀
找到了https://github.com/opendatalab/MinerU/issues/1730 这个issues有说