lewiswu1209
lewiswu1209
我也遇到这个问题,是数据集太小,还不够8000组对话呢,可以--val-num指定验证集的数量就行了
https://github.com/yangjianxin1/GPT2-chitchat#model_share
https://huggingface.co/cambridgeltl/simctg_lccc_dialogue 这个模型也能加载,但是感觉训练的不够,说话更不搭。
> 准确的说,我以为这俩东西是一样的呢,我直接把model_epoch40_50w传给from_pretrain加载了,然后用自己的语料继续训练的。
我想试着解决第一个问题,我先定义了几个special token,[NAME], [GENDER], [YEAROFBIRTH], [MONTHOFBIRTH], [DAYOFBIRTH],[AGE]。然后使用了一小批形如: 你是谁? 我是[NAME] 之类的预料对预训练的模型进行训练,训练44个epoch之后,感觉机器人脑子被我训练瓦特了,表现有2:一是在提问其他问题再问你是谁的正确率要远低于直接问你是谁的正确率,二是这几个问题的答案权重偏高,询问其他与这些无关的问题也会回答我是XXX,我是XX岁,甚至出现我是XX星座岁的回答。