FastDeploy
FastDeploy copied to clipboard
请问下,现在多卡流式推理的功能可以使用了吗
使用2个显卡流失推理chatglm6b模型,提供web服务。
可以参考这份代码,使用tritonserver来部署 https://github.com/PaddlePaddle/FastDeploy/tree/llm/llm