TencentPretrain llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新

llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新

Open baketbek opened this issue 1 year ago • 4 comments

Apr 16 '23 04:04 baketbek

大佬好，我在pretrain的时候也碰到了训练卡顿的情况，但不知道啥原因。请问是如何分析确定是存储best的部分代码造成卡顿呢？

Apr 16 '23 14:04 jamestch

大佬好，我在pretrain的时候也碰到了训练卡顿的情况，但不知道啥原因。请问是如何分析确定是存储best的部分代码造成卡顿呢？

你看一下你是多少step存储，然后刚好那个步骤日志显示 saving best 以后就不训练了，就是这个问题，欢迎加微信沟通，437461219

Apr 17 '23 02:04 baketbek

你好，你训练完后文件有多大，我的很小，这是我的执行代码 python pretrain.py --pretrained_model_path models/llama-7b.bin --dataset_path dataset.pt --spm_model_path ../llama.cpp-master/zh-models/tokenizer.model --config_path models/llama/7b_config.json --output_model_path models/llama_zh_7b.bin --world_size 1 --gpu_ranks 0 --data_processor lm --total_steps 100 --save_checkpoint_steps 50 --batch_size 24 --use_lora --lora_dropout 0.0 --vocab_path models/google_zh_vocab.txt

May 04 '23 13:05 jiangjingyao

你好，你训练完后文件有多大，我的很小，这是我的执行代码 python pretrain.py --pretrained_model_path models/llama-7b.bin --dataset_path dataset.pt --spm_model_path ../llama.cpp-master/zh-models/tokenizer.model --config_path models/llama/7b_config.json --output_model_path models/llama_zh_7b.bin --world_size 1 --gpu_ranks 0 --data_processor lm --total_steps 100 --save_checkpoint_steps 50 --batch_size 24 --use_lora --lora_dropout 0.0 --vocab_path models/google_zh_vocab.txt

你的训练代码中出现了这个参数--vocab_path models/google_zh_vocab.txt请问这个可是我在代码中没有发现这个参数啊，请问是怎么回事呢？

May 17 '23 02:05 zhanghaok

TencentPretrain TencentPretrain copied to clipboard

llama训练时，best状态存储导致训练卡顿，建议删除存储best文件部分代码，望记得更新

TencentPretrain
TencentPretrain copied to clipboard