Quzhe Huang

Results 8 comments of Quzhe Huang

我们在部分中文nlu上进行了测试。相比较于是否扩词表,可能训练的token数目的影响会显著的更大一些。

s6 是在做完法律continual train之后,直接把全量的法考、全量的通用sft、咨询等数据混合着训。 s11 是先做通用sft,再训法律,在此基础上,训练咨询。在最后一步训练咨询的时候,混入少量法考和通用sft,做replay

The General SFT Dataset 是增强模型指令跟随的能力,或者说让模型理解,给定一个instruciton,你期望模型做什么。 相比于没有做过sft的模型,经过通用sft训练的模型,一般在不同任务上都有提升。

训练目标是一致的。 不过sft的时候,数据分两部分,instruction 和 output。对于instruction,我们不计算loss,只计算模型生成output的loss。

参考了llama 原文的,bs=1024,lr=1e-4。 loss 大致在 1. ~ 2. 之间。

我们好像并没有遇到这个问题,偶尔会有一两个峰,但很快又回到正常的loss上,继续下降。

这个是个预估,更详细的模型性能和token数目的测试,我们还在进行中。

> 想了解多点continual pretraining。我们是用纯文本作为input和label喂给llama(只有续写能力)得到一个领域上的llama吗? 是的 > 进行完continual pretraining后,还是要用大量的指令微调训练集来得到对话能力的,对吧? 是的,指令微调部分会涉及通用和领域相关的任务。