DanteYuan comments

Results 2 comments of


                                            DanteYuan

Qwen-14B-Chat微调后模型 + fastchat 0.2.29 在2x4090上推理速度比其他13B模型慢很多

> 我们对代码进行了速度优化，速度相较于之前提升了30%以上（w & w/o flash attention），hf已经更新，modelscope晚点也会同步上去。大家可以更新到最新代码试下（推荐使用torch 2.0以上的版本进行测试）已同步最新HF文件和代码，在Linux、V100 GPU、CUDA=11.7、pytorch=2.0.1、python=3.10、Transformers=4.33.1环境下，调用model.chat_stream，单卡性能7.8汉字/s；在多卡下性能2.2汉字/s，请问这是什么原因？

Qwen-14B-Chat微调后模型 + fastchat 0.2.29 在2x4090上推理速度比其他13B模型慢很多

> > > 我们对代码进行了速度优化，速度相较于之前提升了30%以上（w & w/o flash attention），hf已经更新，modelscope晚点也会同步上去。大家可以更新到最新代码试下（推荐使用torch 2.0以上的版本进行测试） > > > > > > 已同步最新HF文件和代码，在Linux、V100 GPU、CUDA=11.7、pytorch=2.0.1、python=3.10、Transformers=4.33.1环境下，调用model.chat_stream，单卡性能7.8汉字/s；在多卡下性能2.2汉字/s，请问这是什么原因？ > > 可以分享下代码吗？我们排查一下问题 ``` # 配置模型路径 model_path = '/home/work/models/Qwen-14B-Chat' # 加载模型 tokenizer =...