ChatGLM-6B 多卡部署高并发测试问题：部署可以平均分配显存，为啥推理预测时不行？

Is there an existing issue for this?

[X] I have searched the existing issues

Current Behavior

from utils import load_model_on_gpus model = load_model_on_gpus("THUDM/chatglm-6b", num_gpus=2) 使用以上官方代码部署多卡推理多卡部署高并发测试问题：部署阶段可以平均分配显存，为啥推理预测时不行？当我高并发测试时，其中一张卡显存一直在涨，另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了，不能把剩余的显存分配到另外一张卡上？

Expected Behavior

多卡部署高并发测试问题：部署阶段可以平均分配显存，为啥推理预测时不行？当我高并发测试时，其中一张卡显存一直在涨，另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了，不能把剩余的显存分配到另外一张卡上？

Steps To Reproduce

多卡部署高并发测试问题：部署阶段可以平均分配显存，为啥推理预测时不行？当我高并发测试时，其中一张卡显存一直在涨，另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了，不能把剩余的显存分配到另外一张卡上？

Environment

多卡部署高并发测试问题：部署阶段可以平均分配显存，为啥推理预测时不行？
当我高并发测试时，其中一张卡显存一直在涨，另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了，不能把剩余的显存分配到另外一张卡上？

Anything else?

多卡部署高并发测试问题：部署阶段可以平均分配显存，为啥推理预测时不行？当我高并发测试时，其中一张卡显存一直在涨，另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了，不能把剩余的显存分配到另外一张卡上？

May 22 '23 08:05 dizhenx

mark

May 25 '23 03:05 zhangtianyu1

+1，不过高并发一般可以试试多实例部署吧

May 25 '23 03:05 MurrayC7

mark

May 27 '23 08:05 Tungsong

你并发是咋实现的

Jun 02 '23 07:06 Vange95

mark

Jun 14 '23 03:06 hongyihui

试试添加 os.environ["CUDA_VISIABLE_DEVICES"]="1,2"

Jun 20 '23 06:06 kongmo

推理，有cache，每一层cache的东西不一样。

Jul 20 '23 04:07 tomcat123a

ChatGLM-6B ChatGLM-6B copied to clipboard

多卡部署高并发测试问题：部署可以平均分配显存，为啥推理预测时不行？

Is there an existing issue for this?

Current Behavior

Expected Behavior

Steps To Reproduce

Environment

Anything else?

ChatGLM-6B
ChatGLM-6B copied to clipboard