ChatGLM-Finetuning icon indicating copy to clipboard operation
ChatGLM-Finetuning copied to clipboard

训练显卡用不了Unable to determine the device handle for GPU0000:05:00.0: Unknown Error 需要重启显卡

Open smile-II opened this issue 10 months ago • 1 comments

之前用python直接训练没用出现过这种情况,这是第一次用deepspeed框架训练 freeze训练,glm2微调最后三层

使用一张3090显卡,参数设置如下 --per_device_train_batch_size 4
--max_len 512
--max_src_len 256
--learning_rate 1e-4
--weight_decay 0.1
--num_train_epochs 1
--gradient_accumulation_steps 16
--warmup_ratio 0.1 \

莫名奇妙就会出现显卡停了的情况: 输入nvidia-smi 出现Unable to determine the device handle for GPU0000:05:00.0: Unknown Error

有两张3090,一开始在1卡上训练,停了一次,然后重启两张卡,放在0卡上训练,又停了。 显卡一直在16度的空调房

smile-II avatar Aug 28 '23 04:08 smile-II