Wanfu Wang

Results 9 comments of Wanfu Wang

> hi能试一下zero2看下报错情况吗 zero3 hang住的问题可能一下看不太出来, dpo data_collocator里面没有fake_inputs行为,所以z3的时候会因为设备上不同的梯度信息导致会hang住 [@wwfnb](https://github.com/wwfnb) @Kuangdd01 好的, 但是可能需要明天才能看到结果,现在没有可以用的GPU。

> > > 我也遇到了同样的问题: 使用音频+文本混合数据训练,采用 deepspeed zero3,在训练开始时卡住不动,GPU利用率是100%。 但采用 deepspeed zero2 能正常训练。 目前试了很多 deepspeed版本,均无法正常使用 zero3。 > > > > > > dpo吗 > > 不是dpo,是全量 sft。 我之前在全量sft混合数据训练时是没有hang的,是后面dpo时会hang住

I found that when I processed images one by one using omni_parser, the memory usage kept rising

你好,你确认存在这个问题吗, 我使用开源的偏好数据训练了Qwen2.5-instruct-7B,在reward bench上测试,得到的分数好像是正常的, 准确率也不差

> > 这个问题我遇到过,其实训练是正常的,保存也是正常的,但是如果用vllm推理,不能正常加载保存的权重,会随机value_head的权重。目前没有找到用vllm加载的方式 > > 您好,请问您是如何判断保存是正常的呢?我训练Qwen2.5-7B-Instruct模型,保存的value_head文件大小仅为7KB,检查均值标准差发现好像是随机初始化的权重,并没有正确保存 我检查value_head.safetensors 文件的大小是 7.5 KB

> > > 这个问题我遇到过,其实训练是正常的,保存也是正常的,但是如果用vllm推理,不能正常加载保存的权重,会随机value_head的权重。目前没有找到用vllm加载的方式 > > > > > > 您好,请问您是如何判断保存是正常的呢?我训练Qwen2.5-7B-Instruct模型,保存的value_head文件大小仅为7KB,检查均值标准差发现好像是随机初始化的权重,并没有正确保存 > > 我检查value_head.safetensors 文件的大小是 7.5 KB 这个大小是不是正常的, value head是不是将 隐藏层向量映射成一个标量, 所以需要的参数并不是很多。

> 这个问题我遇到过,其实训练是正常的,保存也是正常的,但是如果用vllm推理,不能正常加载保存的权重,会随机value_head的权重。目前没有找到用vllm加载的方式 你好, 我有一个问题,您知道怎么使用transformers的方式加载训练好的rm吗, 我翻遍了issue,好像llamafactory只提供了 llamafactory-cli api部署的方式以及直接修改 配置文件中的 do_eval: true的方式来运行rm。

> > rm > > 我是torch手动加载覆盖进去的,默认加载是随机初始化 请问有一个demo的示例吗,十分感谢。