MiniCPM-V 💡 [REQUEST] - 如何复现 OCRBench 精度，是否有专门的提示词？

起始日期 | Start Date

No response

实现PR | Implementation PR

No response

摘要 | Summary

以KIE任务为例，是否有专门的提示词？

基本示例 | Basic Example

nothing

缺陷 | Drawbacks

nothing

未解决问题 | Unresolved questions

No response

Aug 22 '24 09:08 GarrickLin

没有的/ 我们的测试环境时，使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下进行推理得到的

Aug 22 '24 09:08 Cuiunbo

我使用vllm部署，调用api的方式，在ocrbench提供的框架下，最高只能跑到807分，达不到官方的852分（A100 *4）。同时在pdf2txt任务上，ocr幻觉还好，但是指令遵循能力不强，无法像ocr准确还原；总是出现，标题，正文等格式，猜测在训练时使用大量markdown格式。

Aug 23 '24 03:08 ZhonghaoLu

在OCR训练中未涉及过多指令，可能需要尝试较多的prompt，或者可以尝试使用few shot的方法实现您想要的结果。关于VLLM上复现OCRBench，请 @HwwwwwwwH 来看一下吧～

Aug 26 '24 11:08 Cuiunbo

我使用vllm部署，调用api的方式，在ocrbench提供的框架下，最高只能跑到807分，达不到官方的852分（A100 *4）。同时在pdf2txt任务上，ocr幻觉还好，但是指令遵循能力不强，无法像ocr准确还原；总是出现，标题，正文等格式，猜测在训练时使用大量markdown格式。

vllm 在线性层的输出会和 HF 上有细微的精度差异，在 bfloat16 下这个差异会更大一些，因此使用 vllm 测试的结果却是可能是不太一样的，近期我会测一个结果出来供参考。精度差异的问题可以参考：https://zhuanlan.zhihu.com/p/658780653

Aug 28 '24 03:08 HwwwwwwwH

没有的/ 我们的测试环境时，使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下进行推理得到的

你好，我测出来只有839分。

Aug 28 '24 12:08 luyao-cv

没有的/ 我们的测试环境时，使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下进行推理得到的

你好，我测出来只有839分。

您好，感谢您的提问！我们的模型在 OCRBench 上的分数是采用 eval_mm 目录中的 vlmevalkit 进行评测的，请参考 https://github.com/OpenBMB/MiniCPM-V/blob/main/eval_mm/README_zh.md#opencompass 进行评测。目前我们可以确保在 8 卡情况下复现出同样的结果。

Aug 31 '24 17:08 lihytotoro

💡 [REQUEST] - 如何复现 OCRBench 精度，是否有专门的提示词？

起始日期 | Start Date

实现PR | Implementation PR

相关Issues | Reference Issues

摘要 | Summary

基本示例 | Basic Example

缺陷 | Drawbacks

未解决问题 | Unresolved questions