ChatGLM-Tuning icon indicating copy to clipboard operation
ChatGLM-Tuning copied to clipboard

请问大家怎么判断模型微调之后是否生效?

Open acadaiaca opened this issue 2 years ago • 3 comments

尝试设置target_modules=["query_key_value"]以及target_modules=["query_key_value", "dense", "dense_h_to_4h", "dense_4h_to_h"],微调几个或几十个epoch,模型似乎没有学到什么 请问大家怎么判断模型微调之后是否生效?或者说,模型通过微调,能学到什么? 从微调数据里抽一条完全一样的,看微调后的模型回答是否和微调数据一样? 还是说,微调之后,模型的回答风格发生改变,比如微调数据的answer很短,模型微调后更倾向于短回答?

acadaiaca avatar Mar 28 '23 09:03 acadaiaca

尝试设置target_modules=["query_key_value"]以及target_modules=["query_key_value", "dense", "dense_h_to_4h", "dense_4h_to_h"],微调几个或几十个epoch,模型似乎没有学到什么 请问大家怎么判断模型微调之后是否生效?或者说,模型通过微调,能学到什么? 从微调数据里抽一条完全一样的,看微调后的模型回答是否和微调数据一样? 还是说,微调之后,模型的回答风格发生改变,比如微调数据的answer很短,模型微调后更倾向于短回答?

用微调数据构造prompt差不多的测试样例,看微调后的模型回答是否符合你微调数据风格,或者有没有微调数据里独有的信息。

suc16 avatar Mar 29 '23 01:03 suc16

还是说,微调之后,模型的回答风格发生改变,比如微调数据的answer很短,模型微调后更倾向于短回答?

我也发现这个问题了,怀疑是maxlength设置成320的原因,因为原始模型输入的最大长度有2048

archwolf118 avatar Mar 29 '23 05:03 archwolf118

修改生成的infer里生成的参数max_length=2048,生成的效果也会变好。

randyadd163 avatar Mar 29 '23 10:03 randyadd163