ChatGLM-6B
ChatGLM-6B copied to clipboard
[Help] 多轮对话数据格式问题
Is your feature request related to a problem? Please describe.
将领域内的多轮对话数据按照官网预测的例子进行组织了数据形式,进行全参数 model finetuing。 在ChatGLM6B基础上我们仅使用领域内的多轮对话数据使用全参数 model finetuing(非ptuning方式) 提供的方式进行微调。领域内数据共23万。 我们的对话组织形式 原始多轮对话:问题1->答案1->问题2->答案2 组织训练数据为:input:【round0】\n问:问题1,答:答案1 \n 【round1】\n 问:问题2 答:target:答案2。
现在我们观察到,在领域内数据BLUE是有提升的。但在公开数据集CLUE的阅读理解任务上,会有一部分例子输出会偏向于领域内,预测的输入中加入“【round0】”后更偏向领域内数据。
例子如下:
原始数据:
input:阅读文章,回答问题:具体文章xxxx。问题:具体问题xxx。
label:埼玉县埼玉市南区七丁目
ChatGLM6B:
input:阅读文章,回答问题:具体文章xxxx。问题:具体问题xxx。
output:武藏浦和站是一个位于埼玉县埼玉市南区七丁目,属于东日本旅客铁道(JR东日本)
模型为我们微调模型(预测时预测input中不加入【round0】)
input:阅读文章,回答问题:具体文章xxxx。问题:具体问题xxx。
output:武藏浦和站是一个位于埼玉县埼玉市南区七丁目,属于东日本旅客铁道(JR东日本)埼玉县埼玉市南区七丁目,属于东日本旅客铁道
模型同上(预测时预测input中加入【round0】):
input:【round0】阅读文章,回答问题:具体文章xxxx。问题:具体问题xxx。
output:亲,请您稍等,正在查询中。谢谢理解呢。
ps: ”亲,请您稍等,正在查询中。谢谢理解呢。“是我们训练语料中的内容。
Solutions
“【round0】”似乎被当成领域内数据的一个强提示了,已经被23万的领域内数据带偏。为什么这么点数据就能产生这种现象呢?想请教下训练ChatGLM6B使用的多轮对话训练数据,其中input的prompt格式是怎么样的?针对多轮对话数据都在开头加上"【round0】问:答:"这种prompt吗?【
Additional context
No response