DanteYuan

Results 2 comments of DanteYuan

> 我们对代码进行了速度优化,速度相较于之前提升了30%以上(w & w/o flash attention),hf已经更新,modelscope晚点也会同步上去。大家可以更新到最新代码试下(推荐使用torch 2.0以上的版本进行测试) 已同步最新HF文件和代码,在Linux、V100 GPU、CUDA=11.7、pytorch=2.0.1、python=3.10、Transformers=4.33.1环境下,调用model.chat_stream,单卡性能7.8汉字/s;在多卡下性能2.2汉字/s,请问这是什么原因?

> > > 我们对代码进行了速度优化,速度相较于之前提升了30%以上(w & w/o flash attention),hf已经更新,modelscope晚点也会同步上去。大家可以更新到最新代码试下(推荐使用torch 2.0以上的版本进行测试) > > > > > > 已同步最新HF文件和代码,在Linux、V100 GPU、CUDA=11.7、pytorch=2.0.1、python=3.10、Transformers=4.33.1环境下,调用model.chat_stream,单卡性能7.8汉字/s;在多卡下性能2.2汉字/s,请问这是什么原因? > > 可以分享下代码吗?我们排查一下问题 ``` # 配置模型路径 model_path = '/home/work/models/Qwen-14B-Chat' # 加载模型 tokenizer =...