Ziqing Yang comments

Results 212 comments of


                                            Ziqing Yang

合并模型的时候报错

from_pretrained 中加上参数`device_map="auto"`试试呢

重复“下面是一道例题”

请确认使用的是Alpaca模型吗如果体验交互效果，Chinese-Alpaca比Chinese-LLaMA更合适

llama.cpp编译失败

> 用transformers是如何启动的？参看这个https://github.com/ymcui/Chinese-LLaMA-Alpaca/issues/85#issuecomment-1501115241

使用llama.cpp 和 alpaca.cpp 多轮对话出现相同的问题，多轮后，会傻掉

因为在训练模型时我们并没有使用多轮对话数据，所以目前发布的模型在长上下文理解和多轮对话上的确还有局限性。

如何用多卡运行13b

我们并没有实践过，不过可参考Transformers的device_map，见： https://huggingface.co/docs/transformers/main_classes/model#large-model-loading

第一步，可以直接embedding和lora一起pre-train吗？还是必须先把embedding训练了，再一起训练embedding和lora？

> > 可以一起训。最开始我们在摸索适配方案，所以有两阶段的形式。 13B的时候已经不包含一阶段了（单独训练embedding）。具体可以参考技术报告：https://arxiv.org/abs/2304.08177 > > 请问，刚开始lora和embedding一起run_clm的时候，loss很大，降不下来，是有什么可能原因哇？ loss是多少？LM head是否参与了训练？

第一步，可以直接embedding和lora一起pre-train吗？还是必须先把embedding训练了，再一起训练embedding和lora？

> lm head是不是预测层，就是模型最后一层？是的话那就加了，loss为14左右那相当大了，基本和随机猜差不多请确认超参是否合理，以及确认模型是否更新了embedding和lm head的参数

第一步，可以直接embedding和lora一起pre-train吗？还是必须先把embedding训练了，再一起训练embedding和lora？

> 请问在13b的训练第一阶段的训练脚本可以分享吗？ https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/预训练脚本 13b没有使用预训练阶段1

关于使用hf run_clm对llama进行预训练的疑问

每一行的开头会prepend一个``起始符，所以是根据上一个文本的结束来预测新的文本的开头起始符我们也这么做的，感觉问题不大，因为绝大多数位置还是以预测下一个token为主；极少数的地方才是预测新的文本的开头

关于使用hf run_clm对llama进行预训练的疑问

是由tokenizer自动加的