Daniel-1997

Results 7 comments of Daniel-1997

> 复读机的情况,可以调一下预测的生成参数,增加随机性 你好,我现在也遇到了复读机情况,能说得具体些吗?调整哪些参数,do_sample 和 temperature?

我和你遇到了用样的问题,请问你解决了吗?

> > 遇到一样的问题。请问解决了吗? > > DeepSpeed版本问题,降低到0.8.2版本就好了 好的,我也试试,请问你微调成功了吗?成功了的话能看看内存消耗峰值达到多少?

> 修改 sft.yaml,deepspeed_config:   gradient_accumulation_steps: 1   gradient_clipping: 1.0   offload_optimizer_device: cpu   offload_param_device: cpu   zero3_init_flag: true   zero3_save_16bit_model: true   zero_stage: 3 > > 把deepspeed offload到CPU上 > > 问题解决 > > 硬件环境:RTX 6000 ADA (48GB)...

> @Daniel-1997 应该前面加上`CUDA_VISIBLE_DEVICES=0` 好的,谢谢,只要在脚本最前面加上这个就可以了