Linly icon indicating copy to clipboard operation
Linly copied to clipboard

采用ChatFlow-13B模型进行并行推理,速度特别慢。哪些参数需要优化才能提速?

Open xfg0913 opened this issue 1 year ago • 2 comments

采用ChatFlow-13B模型进行并行推理,运行环境是8块A100 40G的卡,使用示例中的命令参数:python llama_dialogue.py --world_size 8 --seq_length 512 --top_k 10 --load_model_path ../ChatFlow-13B/chatflow_13b.bin --config_path ./config/llama_13b_config.json --spm_model_path ../ChatFlow-13B/tokenizer.model 为什么推理的时间特别长?特别简单的问题,都需要好几分钟才能回复。请不吝赐教

xfg0913 avatar May 22 '23 03:05 xfg0913

首先13B模型不需要用到8张卡,一张就够了。其次是卡越多,通信耗时会越大,所以会比较慢。建议如果是要跑大batch的时候尝试多卡,否则A100的话单卡就够了。单卡13B fp16占用27G显存。

fengyh3 avatar May 23 '23 12:05 fengyh3

首先13B模型不需要用到8张卡,一张就够了。其次是卡越多,通信耗时会越大,所以会比较慢。建议如果是要跑大batch的时候尝试多卡,否则A100的话单卡就够了。单卡13B fp16占用27G显存。

用单卡速度快多了。非常感谢!

xfg0913 avatar May 25 '23 13:05 xfg0913