两次相同的测试结果,同一个评估模型,结果差异很大
上面两个结果是一致的,对过了,但是评估模型给的分数差异比较大,用的是MiniCPM-V-2_6,是评估模型哦能力不行吗?因为是内网用不了openai,推荐用哪个本地LLM
您好,
感谢您的提问!
从您提供的信息来看,这似乎是MMVet Benchmark。由于这项工作属于较早期的研究,当时使用的评估模型是 GPT-4-turbo。需要注意的是,不同的评估模型可能会给出差异较大的评分结果,因此我们也很难判断哪种模型的评分更加准确或优越。
如果您希望与其他模型的结果保持一致,我们建议您使用默认的评估模型进行对比。如果您无法调用openai,我们建议您部署Qwen2.5系列等较强的语言模型。这样可以更好地确保结果的一致性和可比性。
同一个评估模型,对同一个结果两次给出的评分差异也很大?这个问题怎么解决
您好,保持所有设置相同的情况下,评测之间的差异应该很小。您这两次的MMVet分数评测分别是多少呢?
分别是50.0和42.0,具体数值没有记录,看了下是因为评价模型针对同一个结果给出的评分差异比较大,参考上图。
您好,这种情况在我们的日常使用中很少出现,请问方便share一下gpt打分的记录文件(MMVet_gpt4o_turbo.xlsx)吗?
.xlsx文件导不出来,直接看图
两个答案一摸一样。
评分模型一个给出了1,一个给出了0.5,导致两次最终评分为51.9、48,差异有点大,这个评分模型怎么消除随机性。
您使用的是VLMEvalkit中的GPT-4-turbo作为评估模型吗?
用的是本地lmdeploy部署的MiniCPM-v-2_6模型
不建议使用VLM作为评估模型,MiniCPM2.6本身能力不足,建议部署Qwen2.5-72B进行评测并设置temperature=0。