Xiaomeng Zhao comments

Results 690 comments of


                                            Xiaomeng Zhao

torchvision报错

没理由ocr正常txt不正常的，如果torchvision有问题是不管什么模式都运行不了的

pagination removal and local indexDB for issues

@hzzheng0612 @lianyant Have you installed NCCL? https://developer.nvidia.com/nccl

将模型加载和解析的内容分开

@2257396011 @lygiants @cskkx1 @hlzhu1983 可以通过以下方法对模型预加载，只需要调用一次init_model方法，后续解析代码都可以不用更改 https://github.com/opendatalab/MinerU/issues/517#issuecomment-2324324940

layout识别看着没问题，这个是后处理算法问题，如果有能力二次开发的话直接对算法部分进行修改就行。 layout核心算法是这个 https://github.com/opendatalab/MinerU/blob/4983bc1df668b80fa3481fa657eb509b448bb082/magic_pdf/pdf_parse_union_core.py#L152 能解决这种多栏排版的话也欢迎提pr。

[feature]: how to deploy self-host mini app ?

在结果输出目录有layout.pdf和spans.pdf，这两个就是本次解析的可视化结果。

[feature]: how to deploy self-host mini app ?

找个pdf.js库在浏览器中把可视化的pdf渲染出来就行。

有一个需要联网下载

https://github.com/opendatalab/MinerU/blob/295df3293c02cf8077be1ceb1a4ebd8e86bacfbe/magic_pdf/model/pdf_extract_kit.py#L7 在>=0.6.2b1版本已经修复这个问题了，直接升级到新版本即可

从pdf解析出来的内容少了一大段话

目前的图片处理规则是一张图只能绑定一块caption，这张图上面下面各有一个caption ![image](https://github.com/user-attachments/assets/cb478ef7-7013-4570-82a9-bde9bca86445) 根据距离较近的原则，上面的caption和图片绑定成了一个整体的block，下面的caption在处理时被舍弃掉了。目前这个结果是符合预期的。关于这种双caption的图片，我们之后会讨论有没有其他更好的处理方案。

从pdf解析出来的内容少了一大段话

> 感觉这是个bug，即使没匹配成caption ，这么一大段有意义的内容也不应该丢掉，当作一个普通段落感觉更为合理有一些nlp的需求，是不期望在结果中看到caption的，所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理，就会影响nlp的准确性。

从pdf解析出来的内容少了一大段话

> > > 感觉这是个bug，即使没匹配成caption ，这么一大段有意义的内容也不应该丢掉，当作一个普通段落感觉更为合理 > > > > > > 有一些nlp的需求，是不期望在结果中看到caption的，所以需要将caption和图片绑定并在nlp的输出中移除。如果当成文本锻炼处理，就会影响nlp的准确性。 > > 不同意见，这么一大段话，本就是有完整语义的即使不和其他段落或者图片表格关联起来，也不应该丢弃，这样会导致文章内容缺失，它不是那种超短句这种场景挺多的，Fig和注释分开写的这种，类似table的footer 是的，table的footnote在nlp场景也是需要丢弃的，目前来看这个案例有些像table footnote引申出来的figure footnote。移除这些文字的原因主要是因为这些文本影响了前后正文语义连贯性。