VLMEvalKit icon indicating copy to clipboard operation
VLMEvalKit copied to clipboard

关于qwen2.5omni的性能

Open WenmuZhou opened this issue 8 months ago • 2 comments

你好,我使用VLMEvalKit 对qwen2.5-omni进行评估时发现在几个数据集上的性能和论文中的差距较大,请问这是为什么,下面是我评测的几个数据集性能

数据集 论文 评估 命令
MMMU_val 59.2 51.6 python run.py --data MMMU_DEV_VAL --model Qwen2.5-Omni-7B
MMMU_pro 36.6 31 python run.py --data MMMU_Pro_10c MMMU_Pro_V --model Qwen2.5-Omni-7B
MMStar 64.0 60.6 python run.py --data MMStar --model Qwen2.5-Omni-7B

WenmuZhou avatar May 12 '25 09:05 WenmuZhou

你好,VLMEvalKit不保证能复现原始论文中的结果,影响结果的原因有很多,包括采样设置,prompt等原因等。你可以在qwen2.5-omni Github 提Issue反应相应问题。

MaoSong2022 avatar May 24 '25 02:05 MaoSong2022

@MaoSong2022 顺带请问下:MMMU-Pro评估有4个key,请问分别是什么含义呢? MMMU_Pro_10c、MMMU_Pro_10c_COT、MMMU_Pro_V、MMMU_Pro_V_COT

iamlockelightning avatar Jun 27 '25 06:06 iamlockelightning

@MaoSong2022 顺带请问下:MMMU-Pro评估有4个key,请问分别是什么含义呢? MMMU_Pro_10c、MMMU_Pro_10c_COT、MMMU_Pro_V、MMMU_Pro_V_COT

MMMU_Pro_10c和MMMU_Pro_10c_COT指的是10options数据集,MMMU_Pro_V和MMMU_Pro_V_COT指的是vision数据集,问题和选项都在图片中,需要模型自己去解析;带COT的是思维链推理方式,输入的prompt和对应的后处理评估方法会有所不同

wenba0 avatar Nov 27 '25 01:11 wenba0