puppet101
puppet101
我现在用的ds版本是0.12.3,从全量改成lora,内存降低了,现在没问题了。之前试过新版的ds,但是会报最上面提到的错误。 目前的使用场景对全参微调需求不大了,我先close了,感谢各位解答~
> 你好,我这里试了是能跑起来的,应该是机器的原因,或者需要加长nccl timeout的时间  也可能是deepspeed版本原因?我的版本是0.10.0 你好,可以提供一下训练脚本和ds的配置信息么,我这边也是70B的跑不起来,用的dev分支
> I'm excited to share that GPRO has been successfully validated on a 2-node H20 cluster (8 GPUs per node, 16 GPUs total, 96GB memory per GPU) using VERL. A...