Quzhe Huang comments

Results 8 comments of


                                            Quzhe Huang

关于中文词表选择不扩充的问题

我们在部分中文nlu上进行了测试。相比较于是否扩词表，可能训练的token数目的影响会显著的更大一些。

关于技术报告的一些疑问

s6 是在做完法律continual train之后，直接把全量的法考、全量的通用sft、咨询等数据混合着训。 s11 是先做通用sft，再训法律，在此基础上，训练咨询。在最后一步训练咨询的时候，混入少量法考和通用sft，做replay

关于技术报告的一些疑问

The General SFT Dataset 是增强模型指令跟随的能力，或者说让模型理解，给定一个instruciton，你期望模型做什么。相比于没有做过sft的模型，经过通用sft训练的模型，一般在不同任务上都有提升。

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

训练目标是一致的。不过sft的时候，数据分两部分，instruction 和 output。对于instruction，我们不计算loss，只计算模型生成output的loss。

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

参考了llama 原文的，bs=1024，lr=1e-4。 loss 大致在 1. ～ 2. 之间。

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

我们好像并没有遇到这个问题，偶尔会有一两个峰，但很快又回到正常的loss上，继续下降。

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

这个是个预估，更详细的模型性能和token数目的测试，我们还在进行中。

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

> 想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama（只有续写能力）得到一个领域上的llama吗？是的 > 进行完continual pretraining后，还是要用大量的指令微调训练集来得到对话能力的，对吧？是的，指令微调部分会涉及通用和领域相关的任务。