5663015

Results 5 comments of 5663015

我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的

> > 我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的 > > 请问能再说的详细一点吗,是模型的config的output_router_logits=True就行了,还是有别的改变? 是的,模型config的output_router_logits=True就行了,其他的没变

> > > > 我也遇到了这个问题,lora、zero2,跑了两次都是卡住,GPU利用率99%。然后AutoConfig加了output_router_logits=True就可以了,不知道是不是这个原因造成的 > > > > > > > > > 请问能再说的详细一点吗,是模型的config的output_router_logits=True就行了,还是有别的改变? > > > > > > 是的,模型config的output_router_logits=True就行了,其他的没变 > > 为啥我这边试了 还是不行,能贴下配置参数之类的么? ``` --ddp_timeout 36000 \...

> 部署时遇到CUDA extension not installed。并且推理速度特别慢。各位大神如何解决? 可能环境和CUDA版本不匹配,可能显存不够

> 全量finetune,ZeRO3,设置output_router_logits=True。训练过程中会突然卡住,GPU利用率突然到100% ![image](https://private-user-images.githubusercontent.com/96909430/321122435-096c34cf-fb9c-4e1e-b694-47a5a104d6b9.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MTI3MzcxNzQsIm5iZiI6MTcxMjczNjg3NCwicGF0aCI6Ii85NjkwOTQzMC8zMjExMjI0MzUtMDk2YzM0Y2YtZmI5Yy00ZTFlLWI2OTQtNDdhNWExMDRkNmI5LnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA0MTAlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwNDEwVDA4MTQzNFomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWEwYzY0OTZiM2ViNDhkMTQ1OGNlZDIxYTg2M2QzNWU2ZTdiMzVjOWM4NzZmZmM2MTY2M2Y3ZDNmNzllMmJiMjgmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.53EFzISqlplFB32hgAgpQjnNU59RkdOL8J78S3rzhS4) 感觉这版MoE还是有问题啊,我试其他的moe没有问题