Qwen2.5
Qwen2.5 copied to clipboard
qwen1.5沿用qwen1的lora代码和数据后,能力退化明显
作者你好: 基于同一份数据,沿用qwen1 repo中的finetune_lora_ds.sh的脚本,分别lora finetune了qwen1-chat-14B和qwen1.5-chat-14B; 1.训练参数也是对齐的(都是11%,lm_head和wte也参与训练了); 2.数据中有部分modelscope-agent-7b的agent训练数据(api触发);
这块做了三个实验:
1.直接测试开源的qwen1.5-chat-14B和qwen-chat-14B,效果qwen1.5要更好;
2.model_max_length设置为2048, 采用上述训练,qwen1.5与qwen1差不多,qwen1效果要稍微好一些;
3.model_max_length设置为4096, 只训练了qwen1.5,qwen1.5比2048版本的qwen1.5要差很多;
请问下第三个实验为啥qwen1.5会退化的很严重,我的训练数据里token长度分布从50-4096的都有,而且分布不是很均匀,是因为这个原因吗?还是qwen1.5的训练不能用qwen1的脚本呢?qwen1.5模型是从https://huggingface.co/Qwen/Qwen1.5-14B-Chat 中获取;
疑问:Qwen1.5比Qwen优化了哪些地方(官网说多语言和角色扮演)
https://qwenlm.github.io/blog/qwen1.5/ this blog tells you what we have done for Qwen1.5. no idea why length has such an impact. perhaps the previous masking strategies matter or there are other factors related to your own experiments idk.
作者你好: 基于同一份数据,沿用qwen1 repo中的finetune_lora_ds.sh的脚本,分别lora finetune了qwen1-chat-14B和qwen1.5-chat-14B; 1.训练参数也是对齐的(都是11%,lm_head和wte也参与训练了); 2.数据中有部分modelscope-agent-7b的agent训练数据(api触发);
这块做了三个实验: 1.直接测试开源的qwen1.5-chat-14B和qwen-chat-14B,效果qwen1.5要更好; 2.model_max_length设置为2048, 采用上述训练,qwen1.5与qwen1差不多,qwen1效果要稍微好一些; 3.model_max_length设置为4096, 只训练了qwen1.5,qwen1.5比2048版本的qwen1.5要差很多;
请问下第三个实验为啥qwen1.5会退化的很严重,我的训练数据里token长度分布从50-4096的都有,而且分布不是很均匀,是因为这个原因吗?还是qwen1.5的训练不能用qwen1的脚本呢?qwen1.5模型是从https://huggingface.co/Qwen/Qwen1.5-14B-Chat 中获取;
We are encountering the same issue. Regarding the Qwen1.5-14b-chat, should we utilize the SFT script from the Qwen1.5 repository for improved completion quality of finetuned model instead of the script from Qwen1? I appreciate your insights and guidance on these matters.
这个问题我也遇到了,同一份训练数据,用Qwen1的finetune_lora_ds.sh的脚本和Qwen1.5的finetune.sh脚本进行微调,都能微调成功,但是在验证的时候,发现模型答案差异巨大,在Qwen1上能满足要求的回答,在Qwen1.5上看起来就特别的奇怪。
请问有哪些合适的微调数据啊
同样的问题