fanbooo
fanbooo
作者你好: 我有2个任务,都用的交叉熵,训练时候发现awl的参数不更新,请问你碰到过这个问题吗?
请教一下,目前用rank=8,alpha=32微调,2.3w数据集(带api调用数据),微调后发现旧知识遗忘的太厉害,新知识只拟合了一部分,还有一些场景欠拟合,这种情况应该怎么调整 数据or参数? 例如: 
感谢qwen团队的工作; 请问下,目前我做lora_ds finetune的时候,trainable parameters的占比是28%; 当我把lora rank 从64降为8,lora_target_modules 从["c_attn", "c_proj", "w1", "w2"] 改为 ["c_attn"]; trainable parameters的占比还是28%左右,请问这是什么原因呢?
作者你好,我是由阿里天池的链接点入的,看起来这个repo主要是文生文的数据,请问有下图中阿里介绍图生文的数据吗? 
作者你好: 基于同一份数据,沿用qwen1 repo中的finetune_lora_ds.sh的脚本,分别lora finetune了qwen1-chat-14B和qwen1.5-chat-14B; 1.训练参数也是对齐的(都是11%,lm_head和wte也参与训练了); 2.数据中有部分modelscope-agent-7b的agent训练数据(api触发); 这块做了三个实验: 1.直接测试开源的qwen1.5-chat-14B和qwen-chat-14B,效果qwen1.5要更好; 2.model_max_length设置为2048, 采用上述训练,qwen1.5与qwen1差不多,qwen1效果要稍微好一些; 3.model_max_length设置为4096, 只训练了qwen1.5,qwen1.5比2048版本的qwen1.5要差很多; 请问下第三个实验为啥qwen1.5会退化的很严重,我的训练数据里token长度分布从50-4096的都有,而且分布不是很均匀,是因为这个原因吗?还是qwen1.5的训练不能用qwen1的脚本呢?qwen1.5模型是从https://huggingface.co/Qwen/Qwen1.5-14B-Chat 中获取;
作者你好: 问题描述: 目前用qwen1.5的模型,复用了https://github.com/QwenLM/Qwen 的lora 微调代码,ds_config_zero2.json,在16张A800上DDP训练,尝试了model_max_length=2048和4096;一直报无法进入正常的loss计算,日志如下:  搜到的一些解决方案: 看别人类似的问题回答是transformer版本问题,之前相同代码微调qwen1没有出现过这个,但是微调1.5不能降transformer版本吧,当前版本transformers==4.37.0,deepspeed>=0.9.3  请问这个问题怎么解决呢?能否开放一下DDP的代码?
感谢qwen团队的工作; 请教一下,使用lora rank=8,alpha=32,target module=[c_attn]时,可训练的参数量占比大概是多少呢?我试了下qwen-chat下的target module=[c_attn,c_proj,w1,w2]微调,占比大概在28%,target module改成[c_attn],trainable parameters还是能占到27%左右,请问这个agent微调的参数量会差不多嘛?是不是太高了?
作者你好,目前我在qwen1.5上实验时,发现泛化性能不是特别好; 看这个研究说是有帮助,请问下你们之前有没有试过neftune_noise_alpha,如果有的话alpha设置多少会比较好呢? https://github.com/neelsjain/NEFTune