Liam comments

Repositories
Issues
Comments

Results 2 comments of


                                            Liam

[Question]: Can document parsing support Mineru backend?

pdfminer 过滤损坏 PDF 文件后再 batch_do_parse 批量推理，运行中断报错 pymupdf.mupdf.FzErrorFormat: code=7: cannot parse object (103 0 R)

> 可以尝试将pdf文件分组20~50个一组，批量推理失败则failback回遍历推理该组我看了MinerU的报告，其中提到使用了PyMuPDF过滤了不可处理的PDF文件，我也尝试添加了PyMuPDF的过滤代码，但batch推理的时候还是会出错，导致浪费了已经批次推理的时间，只能重新回退遍历推理该组能不能批次推理前，就提前过滤一遍呢？请问官方相关的过滤实现在哪部分代码里呢？