MOSS-RLHF icon indicating copy to clipboard operation
MOSS-RLHF copied to clipboard

资源占用问题

Open Ming-Di opened this issue 1 year ago • 3 comments

请问在RLHF过程中,actor,refrence,critic和reward使用的都是7B吗,使用offload了吗,我用的4张80G卡,使用offload的情况下,加载完模型就占用60g了,batch size=4,显存就占满了

Ming-Di avatar Sep 18 '23 02:09 Ming-Di

您好,我们没有使用offload。加载完模型每个卡占用60G,尝试适配一下Zero3。应该需要修改少量的代码(50行以内)。

Ablustrund avatar Sep 20 '23 06:09 Ablustrund

我们在开源代码时去掉了Zero3的部分。经过验证代码是可以完美适配Zero3的。

Ablustrund avatar Sep 20 '23 06:09 Ablustrund

您好,我们没有使用offload。加载完模型每个卡占用60G,尝试适配一下Zero3。应该需要修改少量的代码(50行以内)。

非常感谢😁,请问您训练时 是使用8卡 + zero3 + 不开offload 的设定吗,这样的话 batchsize能到多少呢,我想参考一下

Ming-Di avatar Sep 21 '23 07:09 Ming-Di