Qwen
Qwen copied to clipboard
lora微调后遗忘的太厉害
请教一下,目前用rank=8,alpha=32微调,2.3w数据集(带api调用数据),微调后发现旧知识遗忘的太厉害,新知识只拟合了一部分,还有一些场景欠拟合,这种情况应该怎么调整 数据or参数?
例如:
在qwen-chat-7b上
请问这个跟lora时候,module_to_save里训练了wte和llm head有关系吗?
旧知识遗忘的太厉害
如果没用通用数据的话,可以混一些通用的数据。
新知识只拟合了一部分,还有一些场景欠拟合
一般是要调大学习率、多训练一段时间。
跟lora时候,module_to_save里训练了wte和llm head有关系吗?
qwen-chat-7b默认不会训练wte和llm head的,主要是没有这个必要。这两个参数训练不是LoRA的方式,可以理解成是全量微调。数据正常的话应该影响不大。