Gu
Gu
yes, I have the same question also. The attention_heads is always 1.
关于第一点,我这边实验也发现经常会出现预测结果完全一样的情况,这时把greedy search换成BeamSearch会不会好一些?
请问下,这个代码还是没有合并嘛? 现在仍然只有训练,没有推理部署,文档也没说
有没有一些模板可以提供给大家参考,现在只有一个有点少
想咨询下,你使用了ptuning微调后,知识是否有出现遗忘的现象呢?另外咨询下你的微调数据集有多大呀
我感觉现在新7B也慢了不少吧?
我没有开启flash attention ,那现在还能恢复之前的速度不,或者有参数调整 ---- 回复的原邮件 ---- | 发件人 | Wang ***@***.***> | | 发送日期 | 2023年09月27日 20:06 | | 收件人 | QwenLM/Qwen ***@***.***> | | 抄送人 | Gu ***@***.***>, Comment...
> 做个调查,你们在训练或推理时有开启flash-attention吗?如果开启了那相较于旧版代码应该更快才对,因为v1.1里flash-attention的计算是去除了padding的。另外,在不开flash的情况下v1.1的代码相较于之前确实有可能慢一些,因为我们在计算softmax时先把attn_weights转成了fp32,这样可以减少精度损失,[softmax](https://huggingface.co/Qwen/Qwen-7B-Chat/blob/119ea939362a6311dc2450511e59e43cb5a5073c/modeling_qwen.py#L349-L351) 我这GPU还是V100, 没办法安装flash attn加速
@logicwong 那现在V100显卡上推理是等你们添加了参数在测试性能吗?
@logicwong 我尝试了最新代码的7B-v1.1,感觉速度还是没有之前的版本快了,肉眼可见的比不上之前版本7B.