puppet101

Results 25 comments of puppet101

我现在用的ds版本是0.12.3,从全量改成lora,内存降低了,现在没问题了。之前试过新版的ds,但是会报最上面提到的错误。 目前的使用场景对全参微调需求不大了,我先close了,感谢各位解答~

> 你好,我这里试了是能跑起来的,应该是机器的原因,或者需要加长nccl timeout的时间 ![image](https://user-images.githubusercontent.com/39761308/281301957-d63946d7-2f47-474c-9930-2cb6b5df5cb9.png) 也可能是deepspeed版本原因?我的版本是0.10.0 你好,可以提供一下训练脚本和ds的配置信息么,我这边也是70B的跑不起来,用的dev分支

> I'm excited to share that GPRO has been successfully validated on a 2-node H20 cluster (8 GPUs per node, 16 GPUs total, 96GB memory per GPU) using VERL. A...