VLMEvalKit 关于qwen2.5omni的性能

你好，我使用VLMEvalKit 对qwen2.5-omni进行评估时发现在几个数据集上的性能和论文中的差距较大，请问这是为什么，下面是我评测的几个数据集性能

数据集	论文	评估	命令
MMMU_val	59.2	51.6	python run.py --data MMMU_DEV_VAL --model Qwen2.5-Omni-7B
MMMU_pro	36.6	31	python run.py --data MMMU_Pro_10c MMMU_Pro_V --model Qwen2.5-Omni-7B
MMStar	64.0	60.6	python run.py --data MMStar --model Qwen2.5-Omni-7B

May 12 '25 09:05 WenmuZhou

你好，VLMEvalKit不保证能复现原始论文中的结果，影响结果的原因有很多，包括采样设置，prompt等原因等。你可以在qwen2.5-omni Github 提Issue反应相应问题。

May 24 '25 02:05 MaoSong2022

@MaoSong2022 顺带请问下：MMMU-Pro评估有4个key，请问分别是什么含义呢？ MMMU_Pro_10c、MMMU_Pro_10c_COT、MMMU_Pro_V、MMMU_Pro_V_COT

Jun 27 '25 06:06 iamlockelightning

@MaoSong2022 顺带请问下：MMMU-Pro评估有4个key，请问分别是什么含义呢？ MMMU_Pro_10c、MMMU_Pro_10c_COT、MMMU_Pro_V、MMMU_Pro_V_COT

MMMU_Pro_10c和MMMU_Pro_10c_COT指的是10options数据集，MMMU_Pro_V和MMMU_Pro_V_COT指的是vision数据集，问题和选项都在图片中，需要模型自己去解析；带COT的是思维链推理方式，输入的prompt和对应的后处理评估方法会有所不同

Nov 27 '25 01:11 wenba0