ChatGLM-6B icon indicating copy to clipboard operation
ChatGLM-6B copied to clipboard

多卡部署高并发测试问题:部署可以平均分配显存,为啥推理预测时不行?

Open dizhenx opened this issue 2 years ago • 6 comments

Is there an existing issue for this?

  • [X] I have searched the existing issues

Current Behavior

from utils import load_model_on_gpus model = load_model_on_gpus("THUDM/chatglm-6b", num_gpus=2) 使用以上官方代码部署多卡推理 多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行? 当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?

Expected Behavior

多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行? 当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?

Steps To Reproduce

多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行? 当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?

Environment

多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行?
当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?

Anything else?

多卡部署高并发测试问题:部署阶段可以平均分配显存,为啥推理预测时不行? 当我高并发测试时,其中一张卡显存一直在涨,另一张显卡显存占用始终不变。直到第一张显卡显存涨到顶就崩掉。为啥第一张卡快满了,不能把剩余的显存分配到另外一张卡上?

dizhenx avatar May 22 '23 08:05 dizhenx

mark

zhangtianyu1 avatar May 25 '23 03:05 zhangtianyu1

+1,不过高并发一般可以试试多实例部署吧

MurrayC7 avatar May 25 '23 03:05 MurrayC7

mark

Tungsong avatar May 27 '23 08:05 Tungsong

你并发是咋实现的

Vange95 avatar Jun 02 '23 07:06 Vange95

mark

hongyihui avatar Jun 14 '23 03:06 hongyihui

试试添加 os.environ["CUDA_VISIABLE_DEVICES"]="1,2"

kongmo avatar Jun 20 '23 06:06 kongmo

推理,有cache,每一层cache的东西不一样。

tomcat123a avatar Jul 20 '23 04:07 tomcat123a