Chinese-LLaMA-Alpaca
Chinese-LLaMA-Alpaca copied to clipboard
预训练第一阶段,需要冻结原版LLaMA词表的embedding吗
请问在训练细节里提到的”第一阶段:冻结transformer参数,仅训练embedding,在尽量不干扰原模型的情况下适配新增的中文词向量。“ 怎么理解? 是训练所有49954个token的embedding吗,还是只训练中文Alpaca新增的token?原版LLaMA的32k token的embedding需不需要冻结?谢谢!
整个词表都是参与训练的,并不只是训新加的部分。 另外,现在这个时间节点下,我们不建议使用两阶段的预训练方法了。 具体见:https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/预训练脚本
请问训练整个词表是否会影响原本的embedding?冻结原版LLaMA的embedding会不会效果更好呢?请问您有没有做过这个实验,或者怎么看待这个问题呢?感谢您的解答!
我们没有尝试过。原有的32k词表是包含极少量的中文token的,如果只训练新加的词表可能会有一些影响。 具体效果也不太好直接判断,还是需要严谨的实验核实(也不排除会像你说的一样冻结32k词表效果更好)。
请问 scripts/run_clm_pt_with_peft.py 中的代码是不是没有记录第一阶段的训练呢,因为我没有找到相关的代码,如果我是错的,你可以帮忙指明一下具体是那几行体现了第一阶段吗
请问 scripts/run_clm_pt_with_peft.py 中的代码是不是没有记录第一阶段的训练呢,因为我没有找到相关的代码,如果我是错的,你可以帮忙指明一下具体是那几行体现了第一阶段吗
是的,scripts/run_clm_pt_with_peft.py 只进行了第二阶段的预训练
请问训练整个词表是否会影响原本的embedding?冻结原版LLaMA的embedding会不会效果更好呢?请问您有没有做过这个实验,或者怎么看待这个问题呢?感谢您的解答
@ymcui 请教下为啥不建议第一阶段训练?第一阶段训练的代码在哪儿可以找到?
@airaria 你好,方便把第一阶段训练的代码放出来吗 谢谢
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.