modelscope-agent
modelscope-agent copied to clipboard
lora微调时,可训练参数问题?
感谢qwen团队的工作; 请教一下,使用lora rank=8,alpha=32,target module=[c_attn]时,可训练的参数量占比大概是多少呢?我试了下qwen-chat下的target module=[c_attn,c_proj,w1,w2]微调,占比大概在28%,target module改成[c_attn],trainable parameters还是能占到27%左右,请问这个agent微调的参数量会差不多嘛?是不是太高了?
qwen-7b-chat,lora rank=8,alpha=32,target module=[c_attn],可训练的参数量占比0.0543%。微调使用了https://github.com/modelscope/swift/blob/main/examples/pytorch/llm/scripts/qwen_7b_chat/lora/sft.sh
作者你好,我查到了原因是我lora训练时,module_to_save训练了wte嵌入层和llm head,但是发现微调后导致了比较严重的通用知识遗忘,这是是不是因为module_to_save的原因?