5663015

Results 3 issues of 5663015

Thank you for sharing this code. But I got the following error when I run ./train.sh: ``` argv: ['--dataset=dtu_yao', '--batch_size=4', '--trainpath=/mnt/f/datasets/DTU/dtu_training', '--trainlist', 'lists/dtu/train.txt', '--testlist', 'lists/dtu/test.txt', '--numdepth=192', '--logdir', './checkpoints/d192'] ################################ args...

LoRA指令微调,deepspeed设置为zero2,GPU利用率基本在30%~40%左右,已在AutoConfig里设置了`output_router_logits=True`。非MoE模型正常。 运行环境: 除了利用率低,之前还出现过一个问题:Qwen1.5-MoE-A2.7B-Chat训练到80多steps时卡住,GPU利用率突然到99%,然后就一直保持这个状态。运行环境除了`output_router_logits=True`没有设置外,其他都一样。设置了`output_router_logits=True`后正常运行。

交流群的二维码显示不出来了,能否更新一下呢,谢谢~