Liam

Results 2 comments of Liam

> 可以尝试将pdf文件分组20~50个一组,批量推理失败则failback回遍历推理该组 我看了MinerU的报告,其中提到使用了PyMuPDF过滤了不可处理的PDF文件,我也尝试添加了PyMuPDF的过滤代码,但batch推理的时候还是会出错,导致浪费了已经批次推理的时间,只能重新回退遍历推理该组 能不能批次推理前,就提前过滤一遍呢?请问官方相关的过滤实现在哪部分代码里呢?