LZB
LZB
使用torchrun --nproc_per_node 1 train.py 单块GPU,可以下载预训练模型,但跑一会就出错了   使用torchrun --nproc_per_node 8 train.py 多块GPU,下载预训练模型的时候cuda就超显存了,我的是90G左右的显存,这都不够训练的吗?
4块A100,160G的显存,训练数据都是报显存不足,我怎么调整一下参数呢,或者修改哪里能让数据训练起来 # #FT torchrun --nproc_per_node 4 /home/jovyan/vol-1/BELLE/train/src/train.py \ --model_name_or_path ${model_name_or_path} \ --llama \ --deepspeed configs/deepspeed_config_stage3.json \ --train_file ${train_file} \ --validation_file ${validation_file} \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 1...
Writing final chunks... Error: Checksums do not match. The file may be corrupted. 下载的BELLE-LLaMA-EXT-13B模型MD5值是一样的,也是用的/path/to_original_llama_7B/consolidated.00.pth进行解码, 但是出现了上述问题,检查解码完的md5值和huggingface上不一样,这个是什么原因,我该怎么排查一下呢