ChatGLM-6B
ChatGLM-6B copied to clipboard
ptuning v2微调后的效果
Is your feature request related to a problem? Please describe.
一共准备了300多条数据,二八分为测试集和训练集;微调用的参数和项目一样;
数据集准备是按照下面的方式准备的问答对,没有涉及多轮问答,history设置的是空list:
Solutions
测试了一下微调后的效果,发现有点不太说人话,而且不同的问题重复回答同一个答案,并且感觉丧失了一些通用领域问题的回答能力:
想了解一下,出现这种现象是什么原因造成的?
如果微调用的数据集使用多轮对话的,会避免或者较少这种问题吗?
或者是不是其他微调方法会更好一些呢,比如说lora,或者全参数finetune?
Additional context
顺便想了解一些微调后evaluate结束后的指标值是啥意思,能不能给出一些指标的详细介绍和取值范围,要不然不太清楚如何评价微调后的模型效果好不好。
期待解惑,坐等!!!
哈哈哈哈哈 这是知识搅拌机吗
mark
mark
?
看别的帖子说ptuning之后所有回答都会向ptuning的数据集合偏向。 不过原因实在不好说,可能是
- ptuning的参数不合适
- 数据集质量不够高
- 模型参数数量不够 可能性太多了 也许你可以用LoRA再试试?
看别的帖子说ptuning之后所有回答都会向ptuning的数据集合偏向。 不过原因实在不好说,可能是
- ptuning的参数不合适
- 数据集质量不够高
- 模型参数数量不够 可能性太多了 也许你可以用LoRA再试试?
大概数据集多少为好呢~ 我用了小黄鸡数据 目前 说什么它都强调自己是个骚鸡
请问,微调之后怎么测试和使用
请问,微调之后怎么测试和使用
可以使用官方的ptuning里面的web_demo.py测试,更换为自己的checkpoints
@Godlikemandyy 请问您后来效果好了吗
@Godlikemandyy 请问您后来效果好了吗
没有,效果很一般;后续没太关注了
微调后别的知识退化的问题是模型太小了。可以看claud论文有相关的描述
I encounter same problem, how to solve? why the dialogue history affect next question? I think is't too hard to edit all train data in dialogue format with all sequence.
我将LR改为1e-4之后只训练了5条数据效果会好很多,但是把数据增加到1000条的时候新数据完全没记住,只能回答它原有的信息。