BELLE icon indicating copy to clipboard operation
BELLE copied to clipboard

13B用lora模型训练数据,90G的显存还报超出了显存

Open lixiaoxiaobin opened this issue 1 year ago • 1 comments

使用torchrun --nproc_per_node 1 train.py 单块GPU,可以下载预训练模型,但跑一会就出错了 008d22342783bf309466e08a69153c4 0ec52adcf9c211e04c8fbf51dc2e90a

使用torchrun --nproc_per_node 8 train.py 多块GPU,下载预训练模型的时候cuda就超显存了,我的是90G左右的显存,这都不够训练的吗?

lixiaoxiaobin avatar May 26 '23 07:05 lixiaoxiaobin

请问你的显存是单卡90GB 还是8张卡一共90GB

hulkliu77 avatar Jun 15 '23 02:06 hulkliu77