liyusheng comments

Results 9 comments of


                                            liyusheng

全参数微调Qwen1.5-MoE-A2.7似乎卡住了，显卡使用率100%，但是没有在训练

#3070 看来我们遇到了同样的问题

全参数微调Qwen1.5-MoE-A2.7似乎卡住了，显卡使用率100%，但是没有在训练

> 我也遇到了这个问题，lora、zero2，跑了两次都是卡住，GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了，不知道是不是这个原因造成的请问能再说的详细一点吗，是模型的config的output_router_logits=True就行了，还是有别的改变？

Qwen1.5-14B-Chat lora训练评估问题

@hiyouga 我在训练Qwen1.5-moe的时候也遇到这个问题。开始训练后没有任何输出和报错，就这样卡住了。我最开始以为是没有print_loss的bug，但是运行了超过20个小时也依旧没有结果？用的是2.0.1+cu118、transformers是从github安装的最新的4.40.0。现在不确定是transformers库支持问题还是可能的框架问题？ ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/c6b70428-cff9-4996-8304-0a1dac0fd89e) ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/8c64c056-e4b1-4e61-a488-dd448e668ffe)

Qwen1.5-14B-Chat lora训练评估问题

@Qiang-HU 我试了一下eval，和你的情况也差不多，不知道是不是qwen模型的问题还是框架的问题。 ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/24976b22-2e3e-4648-a5d9-767bfc536ec7)

Qwen1.5-14B-Chat lora训练评估问题

@hiyouga 可是同样的程序和环境，把Qwen1.5-moe换成Qwen1.4-14B就能正常训练。可能是transformers还不支持的原因吗？ ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/82f370f2-2aa6-4e0c-bd42-c88c3ee52195)

Qwen1.5-14B-Chat lora训练评估问题

> @leeyusheng 你是用 zero2 吗是的

Qwen1.5-14B-Chat lora训练评估问题

> @leeyusheng 更新下代码试试 zero3 能不能跑 ![image](https://github.com/hiyouga/LLaMA-Factory/assets/107764195/3a10792b-acf1-4ff7-be49-e0f38f7c5871) 似乎还是不行。。。。。

[BUG] Actor model generates nothing in step3

关了，hybrid_engine有bug，训练速度应该会有影响，推理的时候会变慢。这个issue的原因是没有用bf16数据格式训练llama2  桜华月 ***@***.***   ------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年12月15日(星期五) 中午11:17 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [microsoft/DeepSpeed] [BUG] Actor model generates nothing in step3 (Issue #4301) 您好，想问一下您在训练PPO的过程中，是关掉hybrid_engine 这个参数了么，那训练速度有影响么 —...

[BUG] Actor model generates nothing in step3

我没有训练过百川，可能你看错了。可能不是这个issue的bug，推理速度过慢的问题好像有相关的issue，建议你找一下。  桜华月 ***@***.***   ------------------ 原始邮件 ------------------ 发件人: ***@***.***>; 发送时间: 2023年12月15日(星期五) 中午1:08 收件人: ***@***.***>; 抄送: ***@***.***>; ***@***.***>; 主题: Re: [microsoft/DeepSpeed] [BUG] Actor model generates nothing in step3 (Issue #4301) 关了，hybrid_engine有bug，训练速度应该会有影响，推理的时候会变慢。这个issue的原因是没有用bf16数据格式训练llama2  桜华月 @.***...