Xiangyu Zhao

Results 44 comments of Xiangyu Zhao

您好,在哪个bench上精度下降了呢

您好, 感谢您的提问! 从您提供的信息来看,这似乎是MMVet Benchmark。由于这项工作属于较早期的研究,当时使用的评估模型是 GPT-4-turbo。需要注意的是,不同的评估模型可能会给出差异较大的评分结果,因此我们也很难判断哪种模型的评分更加准确或优越。 如果您希望与其他模型的结果保持一致,我们建议您使用默认的评估模型进行对比。如果您无法调用openai,我们建议您部署Qwen2.5系列等较强的语言模型。这样可以更好地确保结果的一致性和可比性。

您好,保持所有设置相同的情况下,评测之间的差异应该很小。您这两次的MMVet分数评测分别是多少呢?

您好,这种情况在我们的日常使用中很少出现,请问方便share一下gpt打分的记录文件(MMVet_gpt4o_turbo.xlsx)吗?

您使用的是VLMEvalkit中的GPT-4-turbo作为评估模型吗?

不建议使用VLM作为评估模型,MiniCPM2.6本身能力不足,建议部署Qwen2.5-72B进行评测并设置`temperature=0`。

您好,可以在运行`torchrun`命令之前限制`cuda_device`,比如: ``` CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 run.py --model xxx --data xxx ```

请问您用的是什么模型呢?能提供一下指令吗?如果模型没有调用内置的`split_model`函数,不会出现模型切分的情况。

如果您的每个模型都被切分到八张卡上,应该是模型在`init`的时候,也就是`load_pretrained_model`函数中进行了相关操作。您可以查看一下这个函数。

这可能和您模型中自定义的init有关,我建议您先使用`--nproc_per_node=1`进行debug,观察您的模型在init的过程中哪一步将模型进行了split。这可能有助于您快速定位问题。