lawyer-llama icon indicating copy to clipboard operation
lawyer-llama copied to clipboard

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别?

Open zhhhzhang opened this issue 1 year ago • 11 comments

如题!两种训练方式的训练目标是一样的么?两者的训练数据构造有什么区别?谢谢!

zhhhzhang avatar Jun 06 '23 02:06 zhhhzhang

训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。

AndrewZhe avatar Jun 08 '23 11:06 AndrewZhe

训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。

请问continual pretraining的bs和lr这些参数大概是什么样子,loss大小呢?

merlinarer avatar Jun 12 '23 02:06 merlinarer

参考了llama 原文的,bs=1024,lr=1e-4。

loss 大致在 1. ~ 2. 之间。

AndrewZhe avatar Jun 13 '23 05:06 AndrewZhe

是可以持续下降吗,我跑的发现波动的厉害,从1.7下降到1.6,再上升下降这样的,有相关的建议吗

merlinarer avatar Jun 13 '23 05:06 merlinarer

我们好像并没有遇到这个问题,偶尔会有一两个峰,但很快又回到正常的loss上,继续下降。

AndrewZhe avatar Jun 13 '23 06:06 AndrewZhe

我们好像并没有遇到这个问题,偶尔会有一两个峰,但很快又回到正常的loss上,继续下降。

感谢回复,还想请教一个问题,关于continual pretraining的token数量你们做过实验吗?你之前提到的10B的量级才有明显效果是实验观察的结果吗?

merlinarer avatar Jun 15 '23 16:06 merlinarer

这个是个预估,更详细的模型性能和token数目的测试,我们还在进行中。

AndrewZhe avatar Jun 16 '23 08:06 AndrewZhe

训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。

@AndrewZhe 想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama(只有续写能力)得到一个领域上的llama吗? 进行完continual pretraining后,还是要用大量的指令微调训练集来得到对话能力的,对吧?

calvinzhan avatar Jun 21 '23 09:06 calvinzhan

想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama(只有续写能力)得到一个领域上的llama吗?

是的

进行完continual pretraining后,还是要用大量的指令微调训练集来得到对话能力的,对吧?

是的,指令微调部分会涉及通用和领域相关的任务。

AndrewZhe avatar Jun 23 '23 01:06 AndrewZhe

关于continual training我想问一下 这个和以前T5那种mask token,next-sentence预训练是差不多的方式吗

cocovoc avatar Jun 26 '23 08:06 cocovoc

zero shot能力从哪里来?是与指令微调的任务有关吗? #24

feng-1985 avatar Jun 27 '23 14:06 feng-1985