Langchain-Chatchat
Langchain-Chatchat copied to clipboard
多卡部署
trafficstars
用单机多卡或多机多卡,fastapi部署模型,怎样提高并发
可能可以通过每个卡部署一个chatglm模型,并单独执行一个api,再通过消息队列分配到各卡执行的方式避免并发消息的等待处理时长过长
可能可以通过每个卡部署一个chatglm模型,并单独执行一个api,再通过消息队列分配到各卡执行的方式避免并发消息的等待处理时长过长
不能多卡部署一个模型吗?然后并发请求一个端口
请问你做到了吗?你现在的并行部署方案是啥啊
请问你做到了吗?你现在的并行部署方案是啥啊
每张卡单独起个服务,用nginx做负载均衡