Qwen1.5 icon indicating copy to clipboard operation
Qwen1.5 copied to clipboard

Qwen1.5-MoE-A2.7B-Chat微调GPU利用率很低

Open 5663015 opened this issue 2 months ago • 7 comments

LoRA指令微调,deepspeed设置为zero2,GPU利用率基本在30%~40%左右,已在AutoConfig里设置了output_router_logits=True。非MoE模型正常。

运行环境: image

除了利用率低,之前还出现过一个问题:Qwen1.5-MoE-A2.7B-Chat训练到80多steps时卡住,GPU利用率突然到99%,然后就一直保持这个状态。运行环境除了output_router_logits=True没有设置外,其他都一样。设置了output_router_logits=True后正常运行。

5663015 avatar Apr 09 '24 04:04 5663015

部署时遇到CUDA extension not installed。并且推理速度特别慢。各位大神如何解决?

yihaozuifan avatar Apr 09 '24 07:04 yihaozuifan

全量finetune,ZeRO3,设置output_router_logits=True。训练过程中会突然卡住,GPU利用率突然到100% image

MAxx8371 avatar Apr 10 '24 06:04 MAxx8371

部署时遇到CUDA extension not installed。并且推理速度特别慢。各位大神如何解决?

可能环境和CUDA版本不匹配,可能显存不够

5663015 avatar Apr 10 '24 08:04 5663015

全量finetune,ZeRO3,设置output_router_logits=True。训练过程中会突然卡住,GPU利用率突然到100% image

感觉这版MoE还是有问题啊,我试其他的moe没有问题

5663015 avatar Apr 10 '24 08:04 5663015

能否给我一份finetune的数据集jsonl文件

zhanghaobucunzai avatar Apr 10 '24 09:04 zhanghaobucunzai

全量finetune,ZeRO3,设置output_router_logits=True。训练过程中会突然卡住,GPU利用率突然到100% image

请问有解决吗

cooper12121 avatar Apr 17 '24 13:04 cooper12121