Feat: OCR功能依赖GPU，多模态模型来做这些识别呢

Open xinzhics opened this issue 4 months ago • 1 comments

OCR功能依赖GPU服务器，但是目前云服务成本不低，部署改服务的话，成本不低，能否使用多模态模型来做这些识别呢？

Sep 12 '25 09:09 xinzhics

目前使用的是 MinerU 和 PP-Structure-V3 这两种解析方式，目前这两种还没有方便的可配置方法。有没有程序的开源文档解析库推荐。（PS：直接使用多模态模型解析的话，这个成本未免也太高了，且效果和MinerU 以及 paddlex 专门训练的解析模型相比，效果也不会太好）。

这种情况下，可以先使用外部工具将文档批量转换为 Markdown 或者 txt 之后再上传系统，可能会好一些

Sep 14 '25 04:09 xerrors