huruizhi

Results 8 comments of huruizhi

> ### 详细描述问题 > 你好,我使用医疗领域的指令在alpaca-plus的基础上继续进行指令微调,发现模型总是重复生产相同的内容,具体见如下截图。请问是什么问题。 > > ### 运行截图或日志 > ![image](https://user-images.githubusercontent.com/38728769/239743662-403b13bf-a8b9-4fbd-aa0c-c0acffa5cbb2.png) > > ### 必查项目(前三项只保留你要问的) > * [x] **基础模型**:Alpaca-Plus > * [x] **运行系统**:Linux > * [x] **问题分类**:模型训练与精调 /效果问题 > *...

我估计是步骤错误了,需要检查一下步骤

![image](https://github.com/ymcui/Chinese-LLaMA-Alpaca/assets/20983257/c070489f-1ecb-4f1c-bcec-eebb6b3315ac) 这是不是意味着最小需要 28 G 的显存?

> 理论上打开`gradient_checkpointing `24G显存是可以训练的 我再试一下 我试了一下 还是不行 OOM

> @huruizhi 你的解决了吗,我把--nproc_per_node 配置为2 ,用了2颗GPU(24G)也是OOM 没有解决,尝试了各种方式,还是OOM,显存始终差一点点

就差这么一点点。 pytorch 的原因?

> > 就差这么一点点。 pytorch 的原因? > > 你好,请问解决了么 大概需要多少资源可以训练呢? 实测大概需要30G