ChatGLM-Finetuning
ChatGLM-Finetuning copied to clipboard
训练显卡用不了Unable to determine the device handle for GPU0000:05:00.0: Unknown Error 需要重启显卡
之前用python直接训练没用出现过这种情况,这是第一次用deepspeed框架训练 freeze训练,glm2微调最后三层
使用一张3090显卡,参数设置如下
--per_device_train_batch_size 4
--max_len 512
--max_src_len 256
--learning_rate 1e-4
--weight_decay 0.1
--num_train_epochs 1
--gradient_accumulation_steps 16
--warmup_ratio 0.1 \
莫名奇妙就会出现显卡停了的情况: 输入nvidia-smi 出现Unable to determine the device handle for GPU0000:05:00.0: Unknown Error
有两张3090,一开始在1卡上训练,停了一次,然后重启两张卡,放在0卡上训练,又停了。 显卡一直在16度的空调房