MinerU icon indicating copy to clipboard operation
MinerU copied to clipboard

多级标题

Open jefferyvvv opened this issue 1 year ago • 9 comments

  1. 目前导出的 md 仅支持一级标题,是否考虑支持多级标题。
  2. 实现多级标题是否有什么方案。

jefferyvvv avatar Jul 15 '24 09:07 jefferyvvv

@jefferyvvv 目前由于人力有限,一级标题并没有实现。实现方法如下: 由于标题识别之后可以知道标题的bbox的高度,根据高度进行聚合,排序即可。

drunkpig avatar Jul 15 '24 13:07 drunkpig

后续是否会有对多级标题的支持的计划?

shibainu-gbq avatar Jul 22 '24 09:07 shibainu-gbq

@drunkpig 标题的层级非常重要,请问能安排人优先解决吗?

ChaoyuZhang1 avatar Aug 02 '24 03:08 ChaoyuZhang1

@jefferyvvv 目前由于人力有限,一级标题并没有实现。实现方法如下: 由于标题识别之后可以知道标题的bbox的高度,根据高度进行聚合,排序即可。

对于文字型pdf, 直接获取字体大小,通过比较不同标题和正文的,似乎更加精确

JustDoIt166 avatar Aug 02 '24 05:08 JustDoIt166

@jefferyvvv 目前由于人力有限,一级标题并没有实现。实现方法如下: 由于标题识别之后可以知道标题的bbox的高度,根据高度进行聚合,排序即可。

对于文字型pdf, 直接获取字体大小,通过比较不同标题和正文的,似乎更加精确

没那么简单,一篇文档的字体大小完全是不受限制的,文中出现的字体大小可能有非常多,且正文页完全有可能比标题还大或者相同

xsank avatar Aug 06 '24 07:08 xsank

目前我基于本地进行的一些开发中,针对标题层级的提取,只能根据特定的文档格式按照规则进行提取,不太能有普世的提取方式。 例如:针对国内的一些金融行业的投研文档可以按照特定的标题格式提取,按照规则设定标题等级, 对于字体大小这种方式,我本地也测试过,一是文档的字体大小不受限制,对于页眉页脚这种瞎搞的,在统计当页的字体大小的时候,你就需要去除不符合要求的异常数据,确实是比较难搞,而且在转成pdf后,很多文本型pdf是丢失了层级信息

shibainu-gbq avatar Aug 08 '24 02:08 shibainu-gbq

@shibainu-gbq 标题的形式太多了,段落间距,字体,颜色,粗细,背景都能决定是不是标题。很难有普世的方法。

drunkpig avatar Aug 08 '24 02:08 drunkpig

持续关注

CocoaML avatar Sep 11 '24 01:09 CocoaML

在huggingface和modelscope的在线demo上,上线了供预览测试的标题分级功能,可以自行测试。

myhloli avatar Jan 22 '25 10:01 myhloli