Chinese-Vicuna icon indicating copy to clipboard operation
Chinese-Vicuna copied to clipboard

希望作者提供 Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco 的训练过程的优化器参数

Open greatewei opened this issue 1 year ago • 3 comments

机器 A100/80G 训练命令:

torchrun finetune.py \
    --data_path /data/chat/models/datasets/merge.json \
    --output_path /data/chat/models/llama_lora/llama_13b \
    --model_path /data/chat/models/llama_base/llama-13b-hf \
    --eval_steps 200 \
    --save_steps 200 \
    --test_size 1

最终效果 checkpoint-16200

  "max_steps": 16218,
  "num_train_epochs": 3,
  "total_flos": 4.095516895911346e+19,
  "trial_name": null,
  "trial_params": null

数据情况:merge.json文件 693986 组指令, max_steps:16218

我观察到7b的lora max_steps:17298。

所以是不是数据有缺失,或者是我的训练方法有问题,训练了160小时的13b-lora发现效果与 Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco 有些差距。

如果作者能够提供 Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco 的训练优化器参数,对我能有很多帮助^_^ image

greatewei avatar May 05 '23 14:05 greatewei

刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main

LZY-the-boys avatar May 06 '23 02:05 LZY-the-boys

刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main

十分感谢, 有没有 checkpoint-8000 ^_^

greatewei avatar May 06 '23 06:05 greatewei

刚刚上传: https://huggingface.co/Chinese-Vicuna/Chinese-Vicuna-lora-13b-belle-and-guanaco/tree/main

十分感谢, 有没有 checkpoint-8000 ^_^ 还有一点,我观察到merge.json的数据是 69w , epochs = 3, (690000 - test_size) / 128 * 3 ,为什么max_steps是 8133

max_steps": 8133, num_train_epochs": 3

greatewei avatar May 06 '23 07:05 greatewei

因为batch不一样,我们这个是在单卡3090上训练的,batch开不了很大

LZY-the-boys avatar May 08 '23 03:05 LZY-the-boys

因为batch不一样,我们这个是在单卡3090上训练的,batch开不了很大

你们使用的batch是 256 把,这样计算下来差不多是 8133 max_steps, 上面提供的是checkpoint3000,有没有checkpoint8000可用

greatewei avatar May 08 '23 06:05 greatewei

checkpoint3000是第一轮完成的结果,后面两轮的没保存了

LZY-the-boys avatar May 08 '23 06:05 LZY-the-boys

checkpoint3000是第一轮完成的结果,后面两轮的没保存了

模型效果差距会不会太大

greatewei avatar May 08 '23 07:05 greatewei