Unable to reproduce performance on MMMU-val of InternVL3.5-8B model with VLMEvalKit
Hello, Thank you for sharing your incredible work of InternVL, including code and models.
Am trying to reproduce the amazing results reported in the paper. However, am getting 48.67 performance (vs. 73.4 reported in paper) of InternVL3.5-8B Thinking model on MMMU-val with VLMEvalKit. I followed the suggestion from this issue https://github.com/OpenGVLab/InternVL/issues/1185.
Command used for evaluation:
USE_COT=1 SPLIT_THINK=True PRED_FORMAT=tsv python run.py --data MMMU_DEV_VAL --model InternVL3_5-8B-Thinking
----------------------------------- ------------------- -------------------
split dev validation
Overall 0.44 0.4866666666666667
Accounting 0.6 0.5
Agriculture 0.0 0.6
Architecture_and_Engineering 0.0 0.3
Art 1.0 0.8
Art_Theory 0.8 0.7666666666666667
Basic_Medical_Science 0.8 0.6333333333333333
Biology 0.8 0.3
Chemistry 0.4 0.23333333333333334
Clinical_Medicine 0.0 0.6
Computer_Science 0.6 0.3333333333333333
Design 0.6 0.7666666666666667
Diagnostics_and_Laboratory_Medicine 0.2 0.5
Economics 1.0 0.6
Electronics 0.0 0.06666666666666667
Energy_and_Power 0.4 0.26666666666666666
Finance 0.2 0.6
Geography 0.2 0.3333333333333333
History 1.0 0.6666666666666666
Literature 0.8 0.8666666666666667
Manage 0.4 0.5
Marketing 0.6 0.7333333333333333
Materials 0.0 0.2
Math 0.2 0.4
Mechanical_Engineering 0.0 0.4
Music 0.0 0.03333333333333333
Pharmacy 0.8 0.4666666666666667
Physics 0.2 0.4
Psychology 0.6 0.4666666666666667
Public_Health 0.4 0.6
Sociology 0.6 0.6666666666666666
Art & Design 0.6 0.5916666666666667
Business 0.56 0.5866666666666667
Health & Medicine 0.44 0.56
Humanities & Social Science 0.75 0.6666666666666666
Science 0.36 0.3333333333333333
Tech & Engineering 0.14285714285714285 0.30952380952380953
----------------------------------- ------------------- -------------------
Would be greateful to get any guidance on this.
Update: I checked out the latest commit on the VLMEvalKit repo, and now able to get 50.11 on MMMU-val, with slight improvement over earlier results, but still a large gap compared to results reported in paper.
Thanks for your issues. I meet the same problems. Do you have any solutions? I tried Lmms-eval