zzwtop1
zzwtop1
> --resume_from_checkpoint这个命令是可以继续训练的,我是训练1500轮结果400的时候挂掉了,在train.sh上加上了--resume_from_checkpoint 以及对应checkpoint的绝对路径(相对路径就是不行,不知道为啥),从400恢复了训练。如果你是1500训练完成了想继续训练,那max_steps估计也得跟着变
--resume_from_checkpoint这个命令是可以继续训练的,我是训练1500轮结果400的时候挂掉了,在train.sh上加上了--resume_from_checkpoint 以及对应checkpoint的绝对路径(相对路径就是不行,不知道为啥),从400恢复了训练。如果你是1500训练完成了想继续训练,那max_steps估计也得跟着变
在train.sh里加上--resume_from_checkpoint就可以了啊,train.sh里的命令参考: PRE_SEQ_LEN=128 LR=2e-2 NUM_GPUS=1 torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \ --do_train \ --train_file AdvertiseGen/train.json \ --validation_file AdvertiseGen/dev.json \ --preprocessing_num_workers 10 \ --prompt_column content \ --response_column summary \ --overwrite_cache \ --model_name_or_path...
python 3.10.10 pytorch(gpu) 2.1.2 transformers 4.30.0可以,4.34.0还是一样报错