Xiaomeng Zhao
Xiaomeng Zhao
没理由ocr正常txt不正常的,如果torchvision有问题是不管什么模式都运行不了的
@hzzheng0612 @lianyant Have you installed NCCL? https://developer.nvidia.com/nccl
@2257396011 @lygiants @cskkx1 @hlzhu1983 可以通过以下方法对模型预加载,只需要调用一次init_model方法,后续解析代码都可以不用更改 https://github.com/opendatalab/MinerU/issues/517#issuecomment-2324324940
layout识别看着没问题,这个是后处理算法问题,如果有能力二次开发的话直接对算法部分进行修改就行。 layout核心算法是这个 https://github.com/opendatalab/MinerU/blob/4983bc1df668b80fa3481fa657eb509b448bb082/magic_pdf/pdf_parse_union_core.py#L152 能解决这种多栏排版的话也欢迎提pr。
在结果输出目录有layout.pdf和spans.pdf,这两个就是本次解析的可视化结果。
找个pdf.js库在浏览器中把可视化的pdf渲染出来就行。
https://github.com/opendatalab/MinerU/blob/295df3293c02cf8077be1ceb1a4ebd8e86bacfbe/magic_pdf/model/pdf_extract_kit.py#L7 在>=0.6.2b1版本已经修复这个问题了,直接升级到新版本即可
目前的图片处理规则是一张图只能绑定一块caption,这张图上面下面各有一个caption  根据距离较近的原则,上面的caption和图片绑定成了一个整体的block,下面的caption在处理时被舍弃掉了。 目前这个结果是符合预期的。 关于这种双caption的图片,我们之后会讨论有没有其他更好的处理方案。
> 感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理 有一些nlp的需求,是不期望在结果中看到caption的,所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理,就会影响nlp的准确性。
> > > 感觉这是个bug, 即使没匹配成caption ,这么一大段有意义的内容也不应该丢掉,当作一个普通段落感觉更为合理 > > > > > > 有一些nlp的需求,是不期望在结果中看到caption的,所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理,就会影响nlp的准确性。 > > 不同意见,这么一大段话,本就是有完整语义的 即使不和其他段落或者图片表格关联起来,也不应该丢弃,这样会导致文章内容缺失,它不是那种超短句 这种场景挺多的 ,Fig和注释分开写的这种,类似table的footer 是的,table的footnote在nlp场景也是需要丢弃的,目前来看这个案例有些像table footnote引申出来的figure footnote。 移除这些文字的原因主要是因为这些文本影响了前后正文语义连贯性。