huruizhi
huruizhi
> ### 详细描述问题 > 你好,我使用医疗领域的指令在alpaca-plus的基础上继续进行指令微调,发现模型总是重复生产相同的内容,具体见如下截图。请问是什么问题。 > > ### 运行截图或日志 >  > > ### 必查项目(前三项只保留你要问的) > * [x] **基础模型**:Alpaca-Plus > * [x] **运行系统**:Linux > * [x] **问题分类**:模型训练与精调 /效果问题 > *...
我估计是步骤错误了,需要检查一下步骤
 这是不是意味着最小需要 28 G 的显存?
> 理论上打开`gradient_checkpointing `24G显存是可以训练的 我再试一下 我试了一下 还是不行 OOM
> @huruizhi 你的解决了吗,我把--nproc_per_node 配置为2 ,用了2颗GPU(24G)也是OOM 没有解决,尝试了各种方式,还是OOM,显存始终差一点点
就差这么一点点。 pytorch 的原因?
> > 就差这么一点点。 pytorch 的原因? > > 你好,请问解决了么 大概需要多少资源可以训练呢? 实测大概需要30G