liyusheng
liyusheng
#3070 看来我们遇到了同样的问题
> 我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的 请问能再说的详细一点吗,是模型的config的output_router_logits=True就行了,还是有别的改变?
@hiyouga 我在训练Qwen1.5-moe的时候也遇到这个问题。开始训练后没有任何输出和报错,就这样卡住了。我最开始以为是没有print_loss的bug,但是运行了超过20个小时也依旧没有结果?用的是2.0.1+cu118、transformers是从github安装的最新的4.40.0。现在不确定是transformers库支持问题还是可能的框架问题?  
@Qiang-HU 我试了一下eval,和你的情况也差不多,不知道是不是qwen模型的问题还是框架的问题。 
@hiyouga 可是同样的程序和环境,把Qwen1.5-moe换成Qwen1.4-14B就能正常训练。可能是transformers还不支持的原因吗? 
> @leeyusheng 你是用 zero2 吗 是的
> @leeyusheng 更新下代码试试 zero3 能不能跑  似乎还是不行。。。。。
关了,hybrid_engine有bug,训练速度应该会有影响,推理的时候会变慢。这个issue的原因是没有用bf16数据格式训练llama2 桜华月 ***@***.*** ------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年12月15日(星期五) 中午11:17 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [microsoft/DeepSpeed] [BUG] Actor model generates nothing in step3 (Issue #4301) 您好,想问一下您在训练PPO的过程中,是关掉hybrid_engine 这个参数了么,那训练速度有影响么 —...
我没有训练过百川,可能你看错了。可能不是这个issue的bug,推理速度过慢的问题好像有相关的issue,建议你找一下。 桜华月 ***@***.*** ------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年12月15日(星期五) 中午1:08 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [microsoft/DeepSpeed] [BUG] Actor model generates nothing in step3 (Issue #4301) 关了,hybrid_engine有bug,训练速度应该会有影响,推理的时候会变慢。这个issue的原因是没有用bf16数据格式训练llama2 桜华月 @.***...