PanYichen
PanYichen
我也遇到这个问题了
设备显存限制,换成不使用deepspeed会出现oom的问题,所以得用deepspeed启动
0.8.3,应该是最新版
版本没问题了,但是请问我用40G的A100都会出现OOM,配置文件的多卡部署应该怎么调?这个deepspeed的调用方法和我之前用的不太一样,我自己之前的方法好像用不了了
> > 版本没问题了,但是请问我用40G的A100都会出现OOM,配置文件的多卡部署应该怎么调?这个deepspeed的调用方法和我之前用的不太一样,我自己之前的方法好像用不了了 > > world_size 应该是调卡的数量,batch_size调下先跑起来。我也是2张40G的A100,bsz调成16跑起来了。 不好意思,我现在还在推理的generate阶段,代码里面没有这些参数