VLMEvalKit 两次相同的测试结果，同一个评估模型，结果差异很大

上面两个结果是一致的，对过了，但是评估模型给的分数差异比较大，用的是MiniCPM-V-2_6，是评估模型哦能力不行吗？因为是内网用不了openai，推荐用哪个本地LLM

Feb 25 '25 02:02 slZheng077

您好，

感谢您的提问！

从您提供的信息来看，这似乎是MMVet Benchmark。由于这项工作属于较早期的研究，当时使用的评估模型是 GPT-4-turbo。需要注意的是，不同的评估模型可能会给出差异较大的评分结果，因此我们也很难判断哪种模型的评分更加准确或优越。

如果您希望与其他模型的结果保持一致，我们建议您使用默认的评估模型进行对比。如果您无法调用openai，我们建议您部署Qwen2.5系列等较强的语言模型。这样可以更好地确保结果的一致性和可比性。

Feb 25 '25 03:02 PhoenixZ810

同一个评估模型，对同一个结果两次给出的评分差异也很大？这个问题怎么解决

Feb 25 '25 06:02 slZheng077

您好，保持所有设置相同的情况下，评测之间的差异应该很小。您这两次的MMVet分数评测分别是多少呢？

Feb 25 '25 06:02 PhoenixZ810

分别是50.0和42.0，具体数值没有记录，看了下是因为评价模型针对同一个结果给出的评分差异比较大，参考上图。

Feb 25 '25 06:02 slZheng077

您好，这种情况在我们的日常使用中很少出现，请问方便share一下gpt打分的记录文件(MMVet_gpt4o_turbo.xlsx)吗？

Feb 25 '25 06:02 PhoenixZ810

.xlsx文件导不出来，直接看图两个答案一摸一样。

评分模型一个给出了1，一个给出了0.5，导致两次最终评分为51.9、48，差异有点大，这个评分模型怎么消除随机性。

Feb 25 '25 08:02 slZheng077

您使用的是VLMEvalkit中的GPT-4-turbo作为评估模型吗？

Feb 25 '25 10:02 PhoenixZ810

用的是本地lmdeploy部署的MiniCPM-v-2_6模型

Feb 25 '25 10:02 slZheng077

不建议使用VLM作为评估模型，MiniCPM2.6本身能力不足，建议部署Qwen2.5-72B进行评测并设置temperature=0。

Feb 25 '25 10:02 PhoenixZ810