MFCasMicroFusionCell
MFCasMicroFusionCell
> @teknium1 You need to retrain on the fixed/updated base HF models. Anything trained using old transformer code on the decapoda models are bound to break. You can hack your...
we have tried to train the 7b model on A100 40G * 8, with default settings. And all GPU memories are almost eaten up. If set batchsize to 1, the...
> > we have tried to train the 7b model on A100 40G * 8, with default settings. And all GPU memories are almost eaten up. If set batchsize to...
> 我们尝试过不同的transformers版本转换llama权重,最终得到的chinese-llama(alpaca)并没有影响,您可以直接使用最新的transformers版本 感谢回复。还有另外一个问题,我转化了你们的模型以后,使用类似vicuna的方式进行sft,但发现loss的值以及下降速度明显慢于原版的llama,不知你们是否有类似的发现?可能造成这种现象的原因,能提供一些hint么?
> > > 我们尝试过不同的transformers版本转换llama权重,最终得到的chinese-llama(alpaca)并没有影响,您可以直接使用最新的transformers版本 > > > > > > 感谢回复。还有另外一个问题,我转化了你们的模型以后,使用类似vicuna的方式进行sft,但发现loss的值以及下降速度明显慢于原版的llama,不知你们是否有类似的发现?可能造成这种现象的原因,能提供一些hint么? > > 是指在中文任务上吗,可否提供一下具体数值? 当然。我这边训练参考的是vicuna那个repo,即fastchat的repo。数据的话是中文英文各一半,都是开源的alpaca数据我整合了一下。训练的过程中发现,用你们的模型,初始的loss大概是2.几,1个完整epoch过后loss降到了0.9左右。而用官方的llama的话,初始loss在1.2-1.3左右,1个完整epoch过后降到了0.6左右。数据都是一样的。llama都是7B的。用的是你们最新的那个plus版本的llama-chinese。
你好,请问在你的这个示例里面微调的时候,使用的loss就是一般的sft的loss吗?就比如输入是新闻,输出是{ORG:XXX}这种json格式的字符串。我看了下你提供的那个repo,你的repo里面似乎用了一个数字的loss,数据集和任务也和你这里展示的示例不同,所以想问一下。