MiniCPM-V icon indicating copy to clipboard operation
MiniCPM-V copied to clipboard

💡 [REQUEST] - 如何复现 OCRBench 精度,是否有专门的提示词?

Open GarrickLin opened this issue 1 year ago • 5 comments

起始日期 | Start Date

No response

实现PR | Implementation PR

No response

相关Issues | Reference Issues

No response

摘要 | Summary

以KIE任务为例,是否有专门的提示词?

基本示例 | Basic Example

nothing

缺陷 | Drawbacks

nothing

未解决问题 | Unresolved questions

No response

GarrickLin avatar Aug 22 '24 09:08 GarrickLin

没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的

Cuiunbo avatar Aug 22 '24 09:08 Cuiunbo

我使用vllm部署,调用api的方式,在ocrbench提供的框架下,最高只能跑到807分,达不到官方的852分(A100 *4)。同时在pdf2txt任务上,ocr幻觉还好,但是指令遵循能力不强,无法像ocr准确还原;总是出现,标题,正文等格式,猜测在训练时使用大量markdown格式。

ZhonghaoLu avatar Aug 23 '24 03:08 ZhonghaoLu

在OCR训练中未涉及过多指令, 可能需要尝试较多的prompt,或者可以尝试使用few shot的方法实现您想要的结果。 关于VLLM上复现OCRBench, 请 @HwwwwwwwH 来看一下吧~

Cuiunbo avatar Aug 26 '24 11:08 Cuiunbo

我使用vllm部署,调用api的方式,在ocrbench提供的框架下,最高只能跑到807分,达不到官方的852分(A100 *4)。同时在pdf2txt任务上,ocr幻觉还好,但是指令遵循能力不强,无法像ocr准确还原;总是出现,标题,正文等格式,猜测在训练时使用大量markdown格式。

vllm 在线性层的输出会和 HF 上有细微的精度差异,在 bfloat16 下这个差异会更大一些,因此使用 vllm 测试的结果却是可能是不太一样的,近期我会测一个结果出来供参考。 精度差异的问题可以参考:https://zhuanlan.zhihu.com/p/658780653

HwwwwwwwH avatar Aug 28 '24 03:08 HwwwwwwwH

没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的

你好,我测出来只有839分。

luyao-cv avatar Aug 28 '24 12:08 luyao-cv

没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的

你好,我测出来只有839分。

您好,感谢您的提问!我们的模型在 OCRBench 上的分数是采用 eval_mm 目录中的 vlmevalkit 进行评测的,请参考 https://github.com/OpenBMB/MiniCPM-V/blob/main/eval_mm/README_zh.md#opencompass 进行评测。目前我们可以确保在 8 卡情况下复现出同样的结果。

lihytotoro avatar Aug 31 '24 17:08 lihytotoro