请问大家怎么判断模型微调之后是否生效?
尝试设置target_modules=["query_key_value"]以及target_modules=["query_key_value", "dense", "dense_h_to_4h", "dense_4h_to_h"],微调几个或几十个epoch,模型似乎没有学到什么 请问大家怎么判断模型微调之后是否生效?或者说,模型通过微调,能学到什么? 从微调数据里抽一条完全一样的,看微调后的模型回答是否和微调数据一样? 还是说,微调之后,模型的回答风格发生改变,比如微调数据的answer很短,模型微调后更倾向于短回答?
尝试设置target_modules=["query_key_value"]以及target_modules=["query_key_value", "dense", "dense_h_to_4h", "dense_4h_to_h"],微调几个或几十个epoch,模型似乎没有学到什么 请问大家怎么判断模型微调之后是否生效?或者说,模型通过微调,能学到什么? 从微调数据里抽一条完全一样的,看微调后的模型回答是否和微调数据一样? 还是说,微调之后,模型的回答风格发生改变,比如微调数据的answer很短,模型微调后更倾向于短回答?
用微调数据构造prompt差不多的测试样例,看微调后的模型回答是否符合你微调数据风格,或者有没有微调数据里独有的信息。
还是说,微调之后,模型的回答风格发生改变,比如微调数据的answer很短,模型微调后更倾向于短回答?
我也发现这个问题了,怀疑是maxlength设置成320的原因,因为原始模型输入的最大长度有2048
修改生成的infer里生成的参数max_length=2048,生成的效果也会变好。