liyusheng

Results 9 comments of liyusheng

> 我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的 请问能再说的详细一点吗,是模型的config的output_router_logits=True就行了,还是有别的改变?

@hiyouga 我在训练Qwen1.5-moe的时候也遇到这个问题。开始训练后没有任何输出和报错,就这样卡住了。我最开始以为是没有print_loss的bug,但是运行了超过20个小时也依旧没有结果?用的是2.0.1+cu118、transformers是从github安装的最新的4.40.0。现在不确定是transformers库支持问题还是可能的框架问题? ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/c6b70428-cff9-4996-8304-0a1dac0fd89e) ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/8c64c056-e4b1-4e61-a488-dd448e668ffe)

@Qiang-HU 我试了一下eval,和你的情况也差不多,不知道是不是qwen模型的问题还是框架的问题。 ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/24976b22-2e3e-4648-a5d9-767bfc536ec7)

@hiyouga 可是同样的程序和环境,把Qwen1.5-moe换成Qwen1.4-14B就能正常训练。可能是transformers还不支持的原因吗? ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/82f370f2-2aa6-4e0c-bd42-c88c3ee52195)

> @leeyusheng 你是用 zero2 吗 是的

> @leeyusheng 更新下代码试试 zero3 能不能跑 ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/3a10792b-acf1-4ff7-be49-e0f38f7c5871) 似乎还是不行。。。。。

关了,hybrid_engine有bug,训练速度应该会有影响,推理的时候会变慢。这个issue的原因是没有用bf16数据格式训练llama2  桜华月 ***@***.***   ------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年12月15日(星期五) 中午11:17 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [microsoft/DeepSpeed] [BUG] Actor model generates nothing in step3 (Issue #4301) 您好,想问一下您在训练PPO的过程中,是关掉hybrid_engine 这个参数了么,那训练速度有影响么 —...

我没有训练过百川,可能你看错了。可能不是这个issue的bug,推理速度过慢的问题好像有相关的issue,建议你找一下。  桜华月 ***@***.***   ------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年12月15日(星期五) 中午1:08 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [microsoft/DeepSpeed] [BUG] Actor model generates nothing in step3 (Issue #4301) 关了,hybrid_engine有bug,训练速度应该会有影响,推理的时候会变慢。这个issue的原因是没有用bf16数据格式训练llama2  桜华月 @.***...