Qwen lora微调后遗忘的太厉害

lora微调后遗忘的太厉害

Open fanbooo opened this issue 1 year ago • 3 comments

请教一下，目前用rank=8,alpha=32微调，2.3w数据集(带api调用数据)，微调后发现旧知识遗忘的太厉害，新知识只拟合了一部分，还有一些场景欠拟合，这种情况应该怎么调整数据or参数？

例如：

Dec 17 '23 06:12 fanbooo

在qwen-chat-7b上

Dec 17 '23 06:12 fanbooo

请问这个跟lora时候，module_to_save里训练了wte和llm head有关系吗？

Dec 20 '23 08:12 fanbooo

旧知识遗忘的太厉害

如果没用通用数据的话，可以混一些通用的数据。

新知识只拟合了一部分，还有一些场景欠拟合

一般是要调大学习率、多训练一段时间。

跟lora时候，module_to_save里训练了wte和llm head有关系吗？

qwen-chat-7b默认不会训练wte和llm head的，主要是没有这个必要。这两个参数训练不是LoRA的方式，可以理解成是全量微调。数据正常的话应该影响不大。

Dec 21 '23 03:12 jklj077