Chinese-Vicuna
Chinese-Vicuna copied to clipboard
希望作者提供 Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco 的训练过程的优化器参数
机器 A100/80G 训练命令:
torchrun finetune.py \
--data_path /data/chat/models/datasets/merge.json \
--output_path /data/chat/models/llama_lora/llama_13b \
--model_path /data/chat/models/llama_base/llama-13b-hf \
--eval_steps 200 \
--save_steps 200 \
--test_size 1
最终效果 checkpoint-16200
"max_steps": 16218,
"num_train_epochs": 3,
"total_flos": 4.095516895911346e+19,
"trial_name": null,
"trial_params": null
数据情况:merge.json文件 693986 组指令, max_steps:16218
我观察到7b的lora max_steps:17298。
所以是不是数据有缺失,或者是我的训练方法有问题,训练了160小时的13b-lora发现效果与 Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco 有些差距。
如果作者能够提供 Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco 的训练优化器参数,对我能有很多帮助^_^
刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main
刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main
十分感谢, 有没有 checkpoint-8000 ^_^
刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main
十分感谢, 有没有 checkpoint-8000 ^_^ 还有一点,我观察到merge.json的数据是 69w , epochs = 3, (690000 - test_size) / 128 * 3 ,为什么max_steps是 8133
max_steps": 8133, num_train_epochs": 3
因为batch不一样,我们这个是在单卡3090上训练的,batch开不了很大
因为batch不一样,我们这个是在单卡3090上训练的,batch开不了很大
你们使用的batch是 256 把,这样计算下来差不多是 8133 max_steps, 上面提供的是checkpoint3000,有没有checkpoint8000可用
checkpoint3000是第一轮完成的结果,后面两轮的没保存了
checkpoint3000是第一轮完成的结果,后面两轮的没保存了
模型效果差距会不会太大