Linly
Linly copied to clipboard
采用ChatFlow-13B模型进行并行推理,速度特别慢。哪些参数需要优化才能提速?
采用ChatFlow-13B模型进行并行推理,运行环境是8块A100 40G的卡,使用示例中的命令参数:python llama_dialogue.py --world_size 8 --seq_length 512 --top_k 10 --load_model_path ../ChatFlow-13B/chatflow_13b.bin --config_path ./config/llama_13b_config.json --spm_model_path ../ChatFlow-13B/tokenizer.model 为什么推理的时间特别长?特别简单的问题,都需要好几分钟才能回复。请不吝赐教
首先13B模型不需要用到8张卡,一张就够了。其次是卡越多,通信耗时会越大,所以会比较慢。建议如果是要跑大batch的时候尝试多卡,否则A100的话单卡就够了。单卡13B fp16占用27G显存。
首先13B模型不需要用到8张卡,一张就够了。其次是卡越多,通信耗时会越大,所以会比较慢。建议如果是要跑大batch的时候尝试多卡,否则A100的话单卡就够了。单卡13B fp16占用27G显存。
用单卡速度快多了。非常感谢!