Facico comments

Results 234 comments of


                                            Facico

使用llama-13b-hf预训练模型，训练过程学习率变成0，想问下原因?

@chenzk1993 我们的数据大概只有70w条左右，这个300多万应该是指的文件行数，你的10000多条数据格式是正确的吗。我们finetune.sh提供了大概三个脚本，能提供一下你用了哪个脚本以及你的脚本参数吗（你贴的都是默认参数肯定是没问题的）

使用llama-13b-hf预训练模型，训练过程学习率变成0，想问下原因?

其实如果能正确加载应该问题不大，正常的json格式就可以（字典或者list套字典或者每行一个字典），可以参照我们的sample.json 看起来训练到1.33个epoch已经训练了很久了，前面的步骤也正常吗。这个loss 100多可能是从一开始就很大？（7B训练的时候一开始是1左右，13B也差不多） 1、一开始就很大的话可能是模型加载参数没加载好（如果模型参数没加载好可能随机初始化），你可以尝试一下用我们已经训练好的lora加载进去，loss是否正常 2、lr=0一般的问题可能是你当前步骤加载了一个优化器、lr_schedule参数，但这个参数的max_step比你目前的step要小，他就会不能从lr_schedule中加载正确的lr，他就会为0（如果你是从我们已有的一个checkpoint的优化器和lr_schedule加载，但是没有设置resume_from_checkpoint就可能遇到这个问题） 3、依赖、硬件的问题，这个比较难排查。比如加载8bit的时候版本不对，参数弄坏了。或者是硬件把参数计算错了（这个概率比较小）

Facico

使用llama-13b-hf预训练模型，训练过程学习率变成0，想问下原因?

使用llama-13b-hf预训练模型，训练过程学习率变成0，想问下原因?

使用llama-13b-hf预训练模型，训练过程学习率变成0，想问下原因?

使用llama-13b-hf预训练模型，训练过程学习率变成0，想问下原因?

scripts 中好像没有直接从Chinese-Vicuna/Chinese-Vicuna-lora-7b-chatv1继续训练微调的版本

python chat.py时报错

what the pytorch version you used ?

环境问题,不太理解..

环境问题,不太理解..

llama-13b-hf做推理，CUDA out of memory. 问题