ChatGLM-6B ptuning v2微调后的效果

Is your feature request related to a problem? Please describe.

一共准备了300多条数据，二八分为测试集和训练集；微调用的参数和项目一样；数据集准备是按照下面的方式准备的问答对，没有涉及多轮问答，history设置的是空list：

Solutions

测试了一下微调后的效果，发现有点不太说人话，而且不同的问题重复回答同一个答案，并且感觉丧失了一些通用领域问题的回答能力：想了解一下，出现这种现象是什么原因造成的？如果微调用的数据集使用多轮对话的，会避免或者较少这种问题吗？或者是不是其他微调方法会更好一些呢，比如说lora，或者全参数finetune？

Additional context

顺便想了解一些微调后evaluate结束后的指标值是啥意思，能不能给出一些指标的详细介绍和取值范围，要不然不太清楚如何评价微调后的模型效果好不好。

期待解惑，坐等！！！

May 11 '23 02:05 Godlikemandyy

哈哈哈哈哈这是知识搅拌机吗

May 19 '23 07:05 runwean

mark

May 22 '23 09:05 MurrayC7

mark

？

May 25 '23 02:05 Godlikemandyy

看别的帖子说ptuning之后所有回答都会向ptuning的数据集合偏向。不过原因实在不好说，可能是

ptuning的参数不合适
数据集质量不够高
模型参数数量不够可能性太多了也许你可以用LoRA再试试？

May 25 '23 02:05 runzhi214

看别的帖子说ptuning之后所有回答都会向ptuning的数据集合偏向。不过原因实在不好说，可能是

ptuning的参数不合适

数据集质量不够高

模型参数数量不够可能性太多了也许你可以用LoRA再试试？

大概数据集多少为好呢~ 我用了小黄鸡数据目前说什么它都强调自己是个骚鸡

May 31 '23 05:05 FrankXuFromCN

请问，微调之后怎么测试和使用

Jun 01 '23 08:06 HelixPark

请问，微调之后怎么测试和使用

可以使用官方的ptuning里面的web_demo.py测试，更换为自己的checkpoints

Jun 02 '23 06:06 Godlikemandyy

@Godlikemandyy 请问您后来效果好了吗

Jul 01 '23 11:07 niuhuluzhihao

@Godlikemandyy 请问您后来效果好了吗

没有，效果很一般；后续没太关注了

Jul 11 '23 08:07 Godlikemandyy

微调后别的知识退化的问题是模型太小了。可以看claud论文有相关的描述

Jul 18 '23 06:07 lydiayyang

I encounter same problem, how to solve? why the dialogue history affect next question? I think is't too hard to edit all train data in dialogue format with all sequence.

Aug 02 '23 01:08 nativexie

我将LR改为1e-4之后只训练了5条数据效果会好很多，但是把数据增加到1000条的时候新数据完全没记住，只能回答它原有的信息。

Oct 20 '23 01:10 SSQiana