Linly 采用ChatFlow-13B模型进行并行推理，速度特别慢。哪些参数需要优化才能提速？

采用ChatFlow-13B模型进行并行推理，速度特别慢。哪些参数需要优化才能提速？

Open xfg0913 opened this issue 1 year ago • 2 comments

采用ChatFlow-13B模型进行并行推理，运行环境是8块A100 40G的卡，使用示例中的命令参数：python llama_dialogue.py --world_size 8 --seq_length 512 --top_k 10 --load_model_path ../ChatFlow-13B/chatflow_13b.bin --config_path ./config/llama_13b_config.json --spm_model_path ../ChatFlow-13B/tokenizer.model 为什么推理的时间特别长？特别简单的问题，都需要好几分钟才能回复。请不吝赐教

May 22 '23 03:05 xfg0913

首先13B模型不需要用到8张卡，一张就够了。其次是卡越多，通信耗时会越大，所以会比较慢。建议如果是要跑大batch的时候尝试多卡，否则A100的话单卡就够了。单卡13B fp16占用27G显存。

May 23 '23 12:05 fengyh3

首先13B模型不需要用到8张卡，一张就够了。其次是卡越多，通信耗时会越大，所以会比较慢。建议如果是要跑大batch的时候尝试多卡，否则A100的话单卡就够了。单卡13B fp16占用27G显存。

用单卡速度快多了。非常感谢！

May 25 '23 13:05 xfg0913

Linly Linly copied to clipboard

采用ChatFlow-13B模型进行并行推理，速度特别慢。哪些参数需要优化才能提速？

Linly
Linly copied to clipboard