zzwtop1 comments

Results 4 comments of


                                            zzwtop1

[Feature] <title>如何基于上次训练的结果使用其他的数据进行继续训练

> --resume_from_checkpoint这个命令是可以继续训练的，我是训练1500轮结果400的时候挂掉了，在train.sh上加上了--resume_from_checkpoint 以及对应checkpoint的绝对路径（相对路径就是不行，不知道为啥），从400恢复了训练。如果你是1500训练完成了想继续训练，那max_steps估计也得跟着变

[Help] <如何在完成一次punting之后，在结果的基础上继续ptuning>

--resume_from_checkpoint这个命令是可以继续训练的，我是训练1500轮结果400的时候挂掉了，在train.sh上加上了--resume_from_checkpoint 以及对应checkpoint的绝对路径（相对路径就是不行，不知道为啥），从400恢复了训练。如果你是1500训练完成了想继续训练，那max_steps估计也得跟着变

[Help] <如何在完成一次punting之后，在结果的基础上继续ptuning>

在train.sh里加上--resume_from_checkpoint就可以了啊，train.sh里的命令参考： PRE_SEQ_LEN=128 LR=2e-2 NUM_GPUS=1 torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \ --do_train \ --train_file AdvertiseGen/train.json \ --validation_file AdvertiseGen/dev.json \ --preprocessing_num_workers 10 \ --prompt_column content \ --response_column summary \ --overwrite_cache \ --model_name_or_path...

transformers版本问题

python 3.10.10 pytorch(gpu) 2.1.2 transformers 4.30.0可以，4.34.0还是一样报错