Wanfu Wang comments

Results 9 comments of


                                            Wanfu Wang

Qwen-Omni在混合模态数据上dpo训练时，训练卡住

> hi能试一下zero2看下报错情况吗 zero3 hang住的问题可能一下看不太出来， dpo data_collocator里面没有fake_inputs行为，所以z3的时候会因为设备上不同的梯度信息导致会hang住 [@wwfnb](https://github.com/wwfnb) @Kuangdd01 好的，但是可能需要明天才能看到结果，现在没有可以用的GPU。

> > > 我也遇到了同样的问题：使用音频+文本混合数据训练，采用 deepspeed zero3，在训练开始时卡住不动，GPU利用率是100%。但采用 deepspeed zero2 能正常训练。目前试了很多 deepspeed版本，均无法正常使用 zero3。 > > > > > > dpo吗 > > 不是dpo，是全量 sft。我之前在全量sft混合数据训练时是没有hang的，是后面dpo时会hang住

Omniparser crashes after processing 7 images.

I found that when I processed images one by one using omni_parser, the memory usage kept rising

训练rm模型时，value_head无法正确保存，使用了一组随机初始化的权重保存。

你好，你确认存在这个问题吗，我使用开源的偏好数据训练了Qwen2.5-instruct-7B，在reward bench上测试，得到的分数好像是正常的，准确率也不差

训练rm模型时，value_head无法正确保存，使用了一组随机初始化的权重保存。

> > 这个问题我遇到过，其实训练是正常的，保存也是正常的，但是如果用vllm推理，不能正常加载保存的权重，会随机value_head的权重。目前没有找到用vllm加载的方式 > > 您好，请问您是如何判断保存是正常的呢？我训练Qwen2.5-7B-Instruct模型，保存的value_head文件大小仅为7KB，检查均值标准差发现好像是随机初始化的权重，并没有正确保存我检查value_head.safetensors 文件的大小是 7.5 KB

训练rm模型时，value_head无法正确保存，使用了一组随机初始化的权重保存。

> > > 这个问题我遇到过，其实训练是正常的，保存也是正常的，但是如果用vllm推理，不能正常加载保存的权重，会随机value_head的权重。目前没有找到用vllm加载的方式 > > > > > > 您好，请问您是如何判断保存是正常的呢？我训练Qwen2.5-7B-Instruct模型，保存的value_head文件大小仅为7KB，检查均值标准差发现好像是随机初始化的权重，并没有正确保存 > > 我检查value_head.safetensors 文件的大小是 7.5 KB 这个大小是不是正常的， value head是不是将隐藏层向量映射成一个标量，所以需要的参数并不是很多。