Yuxi-Know
Yuxi-Know copied to clipboard
Feat: OCR功能依赖GPU,多模态模型来做这些识别呢
OCR功能依赖GPU服务器,但是目前云服务成本不低,部署改服务的话,成本不低,能否使用多模态模型来做这些识别呢?
目前使用的是 MinerU 和 PP-Structure-V3 这两种解析方式,目前这两种还没有方便的可配置方法。有没有程序的开源文档解析库推荐。(PS:直接使用多模态模型解析的话,这个成本未免也太高了,且效果和MinerU 以及 paddlex 专门训练的解析模型相比,效果也不会太好)。
这种情况下,可以先使用外部工具将文档批量转换为 Markdown 或者 txt 之后再上传系统,可能会好一些