lawyer-llama
lawyer-llama copied to clipboard
请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别?
如题!两种训练方式的训练目标是一样的么?两者的训练数据构造有什么区别?谢谢!
训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。
训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。
请问continual pretraining的bs和lr这些参数大概是什么样子,loss大小呢?
参考了llama 原文的,bs=1024,lr=1e-4。
loss 大致在 1. ~ 2. 之间。
是可以持续下降吗,我跑的发现波动的厉害,从1.7下降到1.6,再上升下降这样的,有相关的建议吗
我们好像并没有遇到这个问题,偶尔会有一两个峰,但很快又回到正常的loss上,继续下降。
我们好像并没有遇到这个问题,偶尔会有一两个峰,但很快又回到正常的loss上,继续下降。
感谢回复,还想请教一个问题,关于continual pretraining的token数量你们做过实验吗?你之前提到的10B的量级才有明显效果是实验观察的结果吗?
这个是个预估,更详细的模型性能和token数目的测试,我们还在进行中。
训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。
@AndrewZhe 想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama(只有续写能力)得到一个领域上的llama吗? 进行完continual pretraining后,还是要用大量的指令微调训练集来得到对话能力的,对吧?
想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama(只有续写能力)得到一个领域上的llama吗?
是的
进行完continual pretraining后,还是要用大量的指令微调训练集来得到对话能力的,对吧?
是的,指令微调部分会涉及通用和领域相关的任务。
关于continual training我想问一下 这个和以前T5那种mask token,next-sentence预训练是差不多的方式吗
zero shot能力从哪里来?是与指令微调的任务有关吗? #24