Ziqing Yang
Ziqing Yang
from_pretrained 中加上参数`device_map="auto"`试试呢
请确认使用的是Alpaca模型吗 如果体验交互效果,Chinese-Alpaca比Chinese-LLaMA更合适
> 用transformers是如何启动的? 参看这个https://github.com/ymcui/Chinese-LLaMA-Alpaca/issues/85#issuecomment-1501115241
因为在训练模型时我们并没有使用多轮对话数据,所以目前发布的模型在长上下文理解和多轮对话上的确还有局限性。
我们并没有实践过,不过可参考Transformers的device_map,见: https://huggingface.co/docs/transformers/main_classes/model#large-model-loading
> > 可以一起训。最开始我们在摸索适配方案,所以有两阶段的形式。 13B的时候已经不包含一阶段了(单独训练embedding)。具体可以参考技术报告:https://arxiv.org/abs/2304.08177 > > 请问,刚开始lora和embedding一起run_clm的时候,loss很大,降不下来,是有什么可能原因哇? loss是多少?LM head是否参与了训练?
> lm head是不是预测层,就是模型最后一层?是的话那就加了,loss为14左右 那相当大了,基本和随机猜差不多 请确认超参是否合理,以及确认模型是否更新了embedding和lm head的参数
> 请问在13b的训练第一阶段的训练脚本可以分享吗? https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/预训练脚本 13b没有使用预训练阶段1
每一行的开头会prepend一个``起始符,所以是根据上一个文本的结束来预测新的文本的开头起始符 我们也这么做的,感觉问题不大,因为绝大多数位置还是以预测下一个token为主;极少数的地方才是预测新的文本的开头
是由tokenizer自动加的