PaddleX icon indicating copy to clipboard operation
PaddleX copied to clipboard

[PaddleOCR_VL] 优化OCR提示逻辑

Open megemini opened this issue 1 month ago • 1 comments

参考 微调 PaddleOCR-VL 新姿势 -- Prompt 与 信息抽取

可以通过微调 PaddleOCR-VL 的 prompt 从而实现不同的任务。

但是,目前 PaddleOCR-VL 的 pipeline.py 中限制了 prompt_label 的类型,从而导致,微调完的模型无法进行推理。

因此,此 pr 放宽此限制,不强制 assert false 而是进行 warning 。

也可以考虑再单独引入一个 arg 特别针对 text_prompt ~

megemini avatar Dec 10 '25 06:12 megemini

Thanks for your contribution!

paddle-bot[bot] avatar Dec 10 '25 06:12 paddle-bot[bot]

感谢您的提交,不过这些改动仅能确保PaddleOCR-VL顺利的调用VL模型,如果需要支持其他类型的prompt,需要进一步支持相应的后处理逻辑才能让其结果顺利的保存到Markdown中

changdazhou avatar Dec 10 '25 12:12 changdazhou

Update 20251211

加了个默认的处理函数 ~ 我在 https://aistudio.baidu.com/projectdetail/9857242 中试了一下,可以输出 markdown 文档了 ~

之前这个文件是空的,我还以为就是这样处理的 😅

megemini avatar Dec 11 '25 12:12 megemini