MinerU 多级标题

目前导出的 md 仅支持一级标题，是否考虑支持多级标题。
实现多级标题是否有什么方案。

Jul 15 '24 09:07 jefferyvvv

@jefferyvvv 目前由于人力有限，一级标题并没有实现。实现方法如下：由于标题识别之后可以知道标题的bbox的高度，根据高度进行聚合，排序即可。

Jul 15 '24 13:07 drunkpig

后续是否会有对多级标题的支持的计划？

Jul 22 '24 09:07 shibainu-gbq

@drunkpig 标题的层级非常重要，请问能安排人优先解决吗？

Aug 02 '24 03:08 ChaoyuZhang1

@jefferyvvv 目前由于人力有限，一级标题并没有实现。实现方法如下：由于标题识别之后可以知道标题的bbox的高度，根据高度进行聚合，排序即可。

对于文字型pdf, 直接获取字体大小，通过比较不同标题和正文的，似乎更加精确

Aug 02 '24 05:08 JustDoIt166

@jefferyvvv 目前由于人力有限，一级标题并没有实现。实现方法如下：由于标题识别之后可以知道标题的bbox的高度，根据高度进行聚合，排序即可。

对于文字型pdf, 直接获取字体大小，通过比较不同标题和正文的，似乎更加精确

没那么简单，一篇文档的字体大小完全是不受限制的，文中出现的字体大小可能有非常多，且正文页完全有可能比标题还大或者相同

Aug 06 '24 07:08 xsank

目前我基于本地进行的一些开发中，针对标题层级的提取，只能根据特定的文档格式按照规则进行提取，不太能有普世的提取方式。例如：针对国内的一些金融行业的投研文档可以按照特定的标题格式提取，按照规则设定标题等级，对于字体大小这种方式，我本地也测试过，一是文档的字体大小不受限制，对于页眉页脚这种瞎搞的，在统计当页的字体大小的时候，你就需要去除不符合要求的异常数据，确实是比较难搞，而且在转成pdf后，很多文本型pdf是丢失了层级信息

Aug 08 '24 02:08 shibainu-gbq

@shibainu-gbq 标题的形式太多了，段落间距，字体，颜色，粗细，背景都能决定是不是标题。很难有普世的方法。

Aug 08 '24 02:08 drunkpig

持续关注

Sep 11 '24 01:09 CocoaML

在huggingface和modelscope的在线demo上，上线了供预览测试的标题分级功能，可以自行测试。

Jan 22 '25 10:01 myhloli