BELLE icon indicating copy to clipboard operation
BELLE copied to clipboard

无法运行bash training命令

Open tomtang110 opened this issue 1 year ago • 6 comments

在训练的时候,运行bash training_scripts/single_gpu/run_FT.sh命令,直接什么错误都不报,但是,无法运行,显存看加载了一点,然后程序就死了。

运行bash training_scripts/single_gpu/run_LoRA.sh 的时候, image z在这个地方卡死不动了。 image 最后这里报错了

tomtang110 avatar Apr 19 '23 13:04 tomtang110

第二张报错图片,像是上一次的任务没有kill干净

mabaochang avatar Apr 19 '23 14:04 mabaochang

第二张报错图片,像是上一次的任务没有kill干净

难道是val set设置为0?

tomtang110 avatar Apr 19 '23 14:04 tomtang110

image 这个代码确实有问题,一直卡在那里不动,cpu利用率5%,gpu占了700多mb,就卡死了,感觉是锁死了。 image

image

tomtang110 avatar Apr 19 '23 15:04 tomtang110

遇到同样的问题,经排查: 第一个问题:升级deepspeed到0.9.0可以解决 第二个问题:内存不足,free -h查看应该可以内存占用基本满了,可以把数据集改小一点,5w条基本占满了16G

iMurphL avatar Apr 19 '23 16:04 iMurphL

遇到同样的问题,经排查: 第一个问题:升级deepspeed到0.9.0可以解决 第二个问题:内存不足,free -h查看应该可以内存占用基本满了,可以把数据集改小一点,5w条基本占满了16G

deepspeed 0.9.0在我这里不行 内存我大概看了我10%就挂了

tomtang110 avatar Apr 19 '23 16:04 tomtang110

我弄反了,我这边是 第二个问题:升级deepspeed到0.9.0可以解决报错 第一个问题:阻塞是因为内存不足,free -h查看应该可以内存占用基本满了,我这边把数据集改小就OK了

iMurphL avatar Apr 19 '23 16:04 iMurphL

在训练的时候,运行bash training_scripts/single_gpu/run_FT.sh命令,直接什么错误都不报,但是,无法运行,显存看加载了一点,然后程序就死了。

运行bash training_scripts/single_gpu/run_LoRA.sh 的时候, image z在这个地方卡死不动了。 image 最后这里报错了

我们已更新了代码,可基于新版本代码试下。另外,建议您在我们提供的docker环境内运行

xianghuisun avatar Apr 21 '23 01:04 xianghuisun