BELLE
BELLE copied to clipboard
13B用lora模型训练数据,90G的显存还报超出了显存
使用torchrun --nproc_per_node 1 train.py 单块GPU,可以下载预训练模型,但跑一会就出错了
使用torchrun --nproc_per_node 8 train.py 多块GPU,下载预训练模型的时候cuda就超显存了,我的是90G左右的显存,这都不够训练的吗?
请问你的显存是单卡90GB 还是8张卡一共90GB