fanbooo issues

Results 8 issues of


                                            fanbooo

awl的parameter不更新

作者你好：我有2个任务，都用的交叉熵，训练时候发现awl的参数不更新，请问你碰到过这个问题吗？

lora微调后遗忘的太厉害

请教一下，目前用rank=8,alpha=32微调，2.3w数据集(带api调用数据)，微调后发现旧知识遗忘的太厉害，新知识只拟合了一部分，还有一些场景欠拟合，这种情况应该怎么调整数据or参数？例如： ![image](https://github.com/QwenLM/Qwen/assets/27717525/412bb30a-d19e-4508-b111-c0d814b0b30c)

lora的trainable参数问题

感谢qwen团队的工作；请问下，目前我做lora_ds finetune的时候，trainable parameters的占比是28%；当我把lora rank 从64降为8，lora_target_modules 从["c_attn", "c_proj", "w1", "w2"] 改为 ["c_attn"]； trainable parameters的占比还是28%左右，请问这是什么原因呢？

作者你好，我是由阿里天池的链接点入的，看起来这个repo主要是文生文的数据，请问有下图中阿里介绍图生文的数据吗？ ![f6a468eb1a186493ea655f68ed4069f56bf7c875](https://user-images.githubusercontent.com/27717525/236407198-3e9e9714-0b12-44bb-8eb6-80f9687810c7.png)

qwen1.5沿用qwen1的lora代码和数据后，能力退化明显

作者你好：基于同一份数据，沿用qwen1 repo中的finetune_lora_ds.sh的脚本，分别lora finetune了qwen1-chat-14B和qwen1.5-chat-14B； 1.训练参数也是对齐的(都是11%，lm_head和wte也参与训练了)； 2.数据中有部分modelscope-agent-7b的agent训练数据（api触发）；这块做了三个实验： 1.直接测试开源的qwen1.5-chat-14B和qwen-chat-14B，效果qwen1.5要更好； 2.model_max_length设置为2048, 采用上述训练，qwen1.5与qwen1差不多，qwen1效果要稍微好一些； 3.model_max_length设置为4096, 只训练了qwen1.5，qwen1.5比2048版本的qwen1.5要差很多；请问下第三个实验为啥qwen1.5会退化的很严重，我的训练数据里token长度分布从50-4096的都有，而且分布不是很均匀，是因为这个原因吗？还是qwen1.5的训练不能用qwen1的脚本呢？qwen1.5模型是从https://huggingface.co/Qwen/Qwen1.5-14B-Chat 中获取；

沿用qwen1的lora微调脚本，训练有问题；

作者你好：问题描述：目前用qwen1.5的模型，复用了https://github.com/QwenLM/Qwen 的lora 微调代码，ds_config_zero2.json，在16张A800上DDP训练，尝试了model_max_length=2048和4096；一直报无法进入正常的loss计算，日志如下： ![image](https://github.com/QwenLM/Qwen1.5/assets/27717525/a920afa0-b595-4014-8fd8-e3c29cb38b15) 搜到的一些解决方案：看别人类似的问题回答是transformer版本问题，之前相同代码微调qwen1没有出现过这个，但是微调1.5不能降transformer版本吧，当前版本transformers==4.37.0，deepspeed>=0.9.3 ![image](https://github.com/QwenLM/Qwen1.5/assets/27717525/200a0659-26aa-4908-8c15-c803f4fd6866) 请问这个问题怎么解决呢？能否开放一下DDP的代码？

lora微调时，可训练参数问题？

感谢qwen团队的工作；请教一下，使用lora rank=8，alpha=32，target module=[c_attn]时，可训练的参数量占比大概是多少呢？我试了下qwen-chat下的target module=[c_attn,c_proj,w1,w2]微调，占比大概在28%，target module改成[c_attn]，trainable parameters还是能占到27%左右，请问这个agent微调的参数量会差不多嘛?是不是太高了?

question

llm

请问作者有尝试过neftune实验吗？

作者你好，目前我在qwen1.5上实验时，发现泛化性能不是特别好；看这个研究说是有帮助，请问下你们之前有没有试过neftune_noise_alpha，如果有的话alpha设置多少会比较好呢？ https://github.com/neelsjain/NEFTune