VLMEvalKit
VLMEvalKit copied to clipboard
关于qwen2.5omni的性能
你好,我使用VLMEvalKit 对qwen2.5-omni进行评估时发现在几个数据集上的性能和论文中的差距较大,请问这是为什么,下面是我评测的几个数据集性能
| 数据集 | 论文 | 评估 | 命令 |
|---|---|---|---|
| MMMU_val | 59.2 | 51.6 | python run.py --data MMMU_DEV_VAL --model Qwen2.5-Omni-7B |
| MMMU_pro | 36.6 | 31 | python run.py --data MMMU_Pro_10c MMMU_Pro_V --model Qwen2.5-Omni-7B |
| MMStar | 64.0 | 60.6 | python run.py --data MMStar --model Qwen2.5-Omni-7B |
你好,VLMEvalKit不保证能复现原始论文中的结果,影响结果的原因有很多,包括采样设置,prompt等原因等。你可以在qwen2.5-omni Github 提Issue反应相应问题。
@MaoSong2022 顺带请问下:MMMU-Pro评估有4个key,请问分别是什么含义呢? MMMU_Pro_10c、MMMU_Pro_10c_COT、MMMU_Pro_V、MMMU_Pro_V_COT
@MaoSong2022 顺带请问下:MMMU-Pro评估有4个key,请问分别是什么含义呢? MMMU_Pro_10c、MMMU_Pro_10c_COT、MMMU_Pro_V、MMMU_Pro_V_COT
MMMU_Pro_10c和MMMU_Pro_10c_COT指的是10options数据集,MMMU_Pro_V和MMMU_Pro_V_COT指的是vision数据集,问题和选项都在图片中,需要模型自己去解析;带COT的是思维链推理方式,输入的prompt和对应的后处理评估方法会有所不同