Daniel-1997
Daniel-1997
> 复读机的情况,可以调一下预测的生成参数,增加随机性 你好,我现在也遇到了复读机情况,能说得具体些吗?调整哪些参数,do_sample 和 temperature?
我和你遇到了用样的问题,请问你解决了吗?
> > 遇到一样的问题。请问解决了吗? > > DeepSpeed版本问题,降低到0.8.2版本就好了 好的,我也试试,请问你微调成功了吗?成功了的话能看看内存消耗峰值达到多少?
> 修改 sft.yaml,deepspeed_config: gradient_accumulation_steps: 1 gradient_clipping: 1.0 offload_optimizer_device: cpu offload_param_device: cpu zero3_init_flag: true zero3_save_16bit_model: true zero_stage: 3 > > 把deepspeed offload到CPU上 > > 问题解决 > > 硬件环境:RTX 6000 ADA (48GB)...
> @Daniel-1997 应该前面加上`CUDA_VISIBLE_DEVICES=0` 好的,谢谢,只要在脚本最前面加上这个就可以了