Qwen1.5
Qwen1.5 copied to clipboard

Published 20 hours ago •

Reame
Issues

Qwen1.5-MoE-A2.7B-Chat微调GPU利用率很低

Open 5663015 opened this issue 2 months ago • 7 comments

LoRA指令微调，deepspeed设置为zero2，GPU利用率基本在30%~40%左右，已在AutoConfig里设置了output_router_logits=True。非MoE模型正常。

运行环境：

除了利用率低，之前还出现过一个问题：Qwen1.5-MoE-A2.7B-Chat训练到80多steps时卡住，GPU利用率突然到99%，然后就一直保持这个状态。运行环境除了output_router_logits=True没有设置外，其他都一样。设置了output_router_logits=True后正常运行。

Apr 09 '24 04:04 5663015

部署时遇到CUDA extension not installed。并且推理速度特别慢。各位大神如何解决？

Apr 09 '24 07:04 yihaozuifan

全量finetune，ZeRO3，设置output_router_logits=True。训练过程中会突然卡住，GPU利用率突然到100%

Apr 10 '24 06:04 MAxx8371

部署时遇到CUDA extension not installed。并且推理速度特别慢。各位大神如何解决？

可能环境和CUDA版本不匹配，可能显存不够

Apr 10 '24 08:04 5663015

全量finetune，ZeRO3，设置output_router_logits=True。训练过程中会突然卡住，GPU利用率突然到100%

感觉这版MoE还是有问题啊，我试其他的moe没有问题

Apr 10 '24 08:04 5663015

能否给我一份finetune的数据集jsonl文件

Apr 10 '24 09:04 zhanghaobucunzai

全量finetune，ZeRO3，设置output_router_logits=True。训练过程中会突然卡住，GPU利用率突然到100%

请问有解决吗

Apr 17 '24 13:04 cooper12121