lawyer-llama 请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

Open zhhhzhang opened this issue 1 year ago • 11 comments

如题！两种训练方式的训练目标是一样的么？两者的训练数据构造有什么区别？谢谢！

Jun 06 '23 02:06 zhhhzhang

训练目标是一致的。不过sft的时候，数据分两部分，instruction 和 output。对于instruction，我们不计算loss，只计算模型生成output的loss。

Jun 08 '23 11:06 AndrewZhe

训练目标是一致的。不过sft的时候，数据分两部分，instruction 和 output。对于instruction，我们不计算loss，只计算模型生成output的loss。

请问continual pretraining的bs和lr这些参数大概是什么样子，loss大小呢？

Jun 12 '23 02:06 merlinarer

参考了llama 原文的，bs=1024，lr=1e-4。

loss 大致在 1. ～ 2. 之间。

Jun 13 '23 05:06 AndrewZhe

是可以持续下降吗，我跑的发现波动的厉害，从1.7下降到1.6，再上升下降这样的，有相关的建议吗

Jun 13 '23 05:06 merlinarer

我们好像并没有遇到这个问题，偶尔会有一两个峰，但很快又回到正常的loss上，继续下降。

Jun 13 '23 06:06 AndrewZhe

我们好像并没有遇到这个问题，偶尔会有一两个峰，但很快又回到正常的loss上，继续下降。

感谢回复，还想请教一个问题，关于continual pretraining的token数量你们做过实验吗？你之前提到的10B的量级才有明显效果是实验观察的结果吗？

Jun 15 '23 16:06 merlinarer

这个是个预估，更详细的模型性能和token数目的测试，我们还在进行中。

Jun 16 '23 08:06 AndrewZhe

训练目标是一致的。不过sft的时候，数据分两部分，instruction 和 output。对于instruction，我们不计算loss，只计算模型生成output的loss。

@AndrewZhe 想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama（只有续写能力）得到一个领域上的llama吗？进行完continual pretraining后，还是要用大量的指令微调训练集来得到对话能力的，对吧？

Jun 21 '23 09:06 calvinzhan

想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama（只有续写能力）得到一个领域上的llama吗？

是的

进行完continual pretraining后，还是要用大量的指令微调训练集来得到对话能力的，对吧？

是的，指令微调部分会涉及通用和领域相关的任务。

Jun 23 '23 01:06 AndrewZhe

关于continual training我想问一下这个和以前T5那种mask token，next-sentence预训练是差不多的方式吗

Jun 26 '23 08:06 cocovoc

zero shot能力从哪里来？是与指令微调的任务有关吗？ #24

Jun 27 '23 14:06 feng-1985