Ang

Results 5 comments of Ang

> 请问您分布式训练的显存是多大? 我用的24G3090, 是不是显卡的问题

> 你是3090 24G吗, 请问你解决了吗

你DeepSpeed进行多卡训练的执行脚本看一下,

是的, 用accelerate会爆显存, 用ds会有额外的模型存储, 前者只能换大显存的卡, 后者一个笨方法是在 ppo.py 里save_mode函数里加上把那个大模型文件夹删除的代码 > > 你DeepSpeed进行多卡训练的执行脚本看一下, > > 脚本: > > ``` > deepspeed --num_gpus=2 src/train_sft.py \ > --deepspeed ds_config.json \ > --do_train \ > --dataset...