BELLE
BELLE copied to clipboard
无法运行bash training命令
在训练的时候,运行bash training_scripts/single_gpu/run_FT.sh命令,直接什么错误都不报,但是,无法运行,显存看加载了一点,然后程序就死了。
运行bash training_scripts/single_gpu/run_LoRA.sh 的时候,
z在这个地方卡死不动了。
最后这里报错了
第二张报错图片,像是上一次的任务没有kill干净
第二张报错图片,像是上一次的任务没有kill干净
难道是val set设置为0?
这个代码确实有问题,一直卡在那里不动,cpu利用率5%,gpu占了700多mb,就卡死了,感觉是锁死了。
遇到同样的问题,经排查: 第一个问题:升级deepspeed到0.9.0可以解决 第二个问题:内存不足,free -h查看应该可以内存占用基本满了,可以把数据集改小一点,5w条基本占满了16G
遇到同样的问题,经排查: 第一个问题:升级deepspeed到0.9.0可以解决 第二个问题:内存不足,free -h查看应该可以内存占用基本满了,可以把数据集改小一点,5w条基本占满了16G
deepspeed 0.9.0在我这里不行 内存我大概看了我10%就挂了
我弄反了,我这边是 第二个问题:升级deepspeed到0.9.0可以解决报错 第一个问题:阻塞是因为内存不足,free -h查看应该可以内存占用基本满了,我这边把数据集改小就OK了
在训练的时候,运行bash training_scripts/single_gpu/run_FT.sh命令,直接什么错误都不报,但是,无法运行,显存看加载了一点,然后程序就死了。
运行bash training_scripts/single_gpu/run_LoRA.sh 的时候,
z在这个地方卡死不动了。
最后这里报错了
我们已更新了代码,可基于新版本代码试下。另外,建议您在我们提供的docker环境内运行