VLMEvalKit icon indicating copy to clipboard operation
VLMEvalKit copied to clipboard

两次相同的测试结果,同一个评估模型,结果差异很大

Open slZheng077 opened this issue 10 months ago • 9 comments

Image 上面两个结果是一致的,对过了,但是评估模型给的分数差异比较大,用的是MiniCPM-V-2_6,是评估模型哦能力不行吗?因为是内网用不了openai,推荐用哪个本地LLM

slZheng077 avatar Feb 25 '25 02:02 slZheng077

您好,

感谢您的提问!

从您提供的信息来看,这似乎是MMVet Benchmark。由于这项工作属于较早期的研究,当时使用的评估模型是 GPT-4-turbo。需要注意的是,不同的评估模型可能会给出差异较大的评分结果,因此我们也很难判断哪种模型的评分更加准确或优越。

如果您希望与其他模型的结果保持一致,我们建议您使用默认的评估模型进行对比。如果您无法调用openai,我们建议您部署Qwen2.5系列等较强的语言模型。这样可以更好地确保结果的一致性和可比性。

PhoenixZ810 avatar Feb 25 '25 03:02 PhoenixZ810

同一个评估模型,对同一个结果两次给出的评分差异也很大?这个问题怎么解决

slZheng077 avatar Feb 25 '25 06:02 slZheng077

您好,保持所有设置相同的情况下,评测之间的差异应该很小。您这两次的MMVet分数评测分别是多少呢?

PhoenixZ810 avatar Feb 25 '25 06:02 PhoenixZ810

分别是50.0和42.0,具体数值没有记录,看了下是因为评价模型针对同一个结果给出的评分差异比较大,参考上图。

slZheng077 avatar Feb 25 '25 06:02 slZheng077

您好,这种情况在我们的日常使用中很少出现,请问方便share一下gpt打分的记录文件(MMVet_gpt4o_turbo.xlsx)吗?

PhoenixZ810 avatar Feb 25 '25 06:02 PhoenixZ810

.xlsx文件导不出来,直接看图 Image 两个答案一摸一样。

Image 评分模型一个给出了1,一个给出了0.5,导致两次最终评分为51.9、48,差异有点大,这个评分模型怎么消除随机性。

slZheng077 avatar Feb 25 '25 08:02 slZheng077

您使用的是VLMEvalkit中的GPT-4-turbo作为评估模型吗?

PhoenixZ810 avatar Feb 25 '25 10:02 PhoenixZ810

用的是本地lmdeploy部署的MiniCPM-v-2_6模型

slZheng077 avatar Feb 25 '25 10:02 slZheng077

不建议使用VLM作为评估模型,MiniCPM2.6本身能力不足,建议部署Qwen2.5-72B进行评测并设置temperature=0

PhoenixZ810 avatar Feb 25 '25 10:02 PhoenixZ810