Qwen2.5 icon indicating copy to clipboard operation
Qwen2.5 copied to clipboard

qwen1.5沿用qwen1的lora代码和数据后,能力退化明显

Open fanbooo opened this issue 1 year ago • 6 comments

作者你好: 基于同一份数据,沿用qwen1 repo中的finetune_lora_ds.sh的脚本,分别lora finetune了qwen1-chat-14B和qwen1.5-chat-14B; 1.训练参数也是对齐的(都是11%,lm_head和wte也参与训练了); 2.数据中有部分modelscope-agent-7b的agent训练数据(api触发);

   这块做了三个实验:
   1.直接测试开源的qwen1.5-chat-14B和qwen-chat-14B,效果qwen1.5要更好;
   2.model_max_length设置为2048, 采用上述训练,qwen1.5与qwen1差不多,qwen1效果要稍微好一些;
   3.model_max_length设置为4096, 只训练了qwen1.5,qwen1.5比2048版本的qwen1.5要差很多;

请问下第三个实验为啥qwen1.5会退化的很严重,我的训练数据里token长度分布从50-4096的都有,而且分布不是很均匀,是因为这个原因吗?还是qwen1.5的训练不能用qwen1的脚本呢?qwen1.5模型是从https://huggingface.co/Qwen/Qwen1.5-14B-Chat 中获取;

fanbooo avatar Feb 25 '24 08:02 fanbooo

疑问:Qwen1.5比Qwen优化了哪些地方(官网说多语言和角色扮演)

WangJianQ-0118 avatar Feb 27 '24 03:02 WangJianQ-0118

https://qwenlm.github.io/blog/qwen1.5/ this blog tells you what we have done for Qwen1.5. no idea why length has such an impact. perhaps the previous masking strategies matter or there are other factors related to your own experiments idk.

JustinLin610 avatar Mar 04 '24 07:03 JustinLin610

作者你好: 基于同一份数据,沿用qwen1 repo中的finetune_lora_ds.sh的脚本,分别lora finetune了qwen1-chat-14B和qwen1.5-chat-14B; 1.训练参数也是对齐的(都是11%,lm_head和wte也参与训练了); 2.数据中有部分modelscope-agent-7b的agent训练数据(api触发);

   这块做了三个实验:
   1.直接测试开源的qwen1.5-chat-14B和qwen-chat-14B,效果qwen1.5要更好;
   2.model_max_length设置为2048, 采用上述训练,qwen1.5与qwen1差不多,qwen1效果要稍微好一些;
   3.model_max_length设置为4096, 只训练了qwen1.5,qwen1.5比2048版本的qwen1.5要差很多;

请问下第三个实验为啥qwen1.5会退化的很严重,我的训练数据里token长度分布从50-4096的都有,而且分布不是很均匀,是因为这个原因吗?还是qwen1.5的训练不能用qwen1的脚本呢?qwen1.5模型是从https://huggingface.co/Qwen/Qwen1.5-14B-Chat 中获取;

We are encountering the same issue. Regarding the Qwen1.5-14b-chat, should we utilize the SFT script from the Qwen1.5 repository for improved completion quality of finetuned model instead of the script from Qwen1? I appreciate your insights and guidance on these matters.

ericzhou571 avatar Mar 04 '24 10:03 ericzhou571

这个问题我也遇到了,同一份训练数据,用Qwen1的finetune_lora_ds.sh的脚本和Qwen1.5的finetune.sh脚本进行微调,都能微调成功,但是在验证的时候,发现模型答案差异巨大,在Qwen1上能满足要求的回答,在Qwen1.5上看起来就特别的奇怪。

trunks023 avatar Mar 11 '24 10:03 trunks023

请问有哪些合适的微调数据啊

dyabel avatar Mar 23 '24 04:03 dyabel

同样的问题

selina-feng avatar Mar 29 '24 02:03 selina-feng