Baichuan2 icon indicating copy to clipboard operation
Baichuan2 copied to clipboard

Baichuan2-13B-chat-4bit推理时显存会暴涨,求解决方案

Open bultiful opened this issue 1 year ago • 12 comments

模型部署后,显存占用大概10G,进行推理时会出现显存增长的,目前在一张V100上部署,显存已经拉满了,感觉会溢出。

bultiful avatar Dec 05 '23 08:12 bultiful

尝试了with torch.no_grad()、显存释放,都不能消除显存占用问题,求大佬救命

bultiful avatar Dec 05 '23 08:12 bultiful

试过context很长的时候会溢出吗?

baichuan-assistant avatar Dec 25 '23 08:12 baichuan-assistant

/assign @bultiful

baichuan-assistant avatar Dec 25 '23 08:12 baichuan-assistant

您发给我的信件已经收到!Best Regards!

bultiful avatar Dec 25 '23 08:12 bultiful

模型部署后,显存占用大概10G,进行推理时会出现显存增长的,目前在一张V100上部署,显存已经拉满了,感觉会溢出。

请问您部署的环境是什么,cuda版本什么

Annie0095 avatar Jan 04 '24 14:01 Annie0095

请问

v100,cuda11.7

bultiful avatar Jan 05 '24 01:01 bultiful

试过context很长的时候会溢出吗?

长度我限制了,但长时间调用模型做生成后,在V100上显存还是被占满了

bultiful avatar Jan 05 '24 01:01 bultiful

试过context很长的时候会溢出吗?

长度我限制了,但长时间调用模型做生成后,在V100上显存还是被占满了

也发现同样的问题,请问有解决方案了吗?

Gavin2318 avatar Jan 11 '24 06:01 Gavin2318

样的问题,请问有解决方

木有啊,只能限制输入和生成的长度挣扎一下,尝试了很多方法都无法清除多余显存

bultiful avatar Jan 11 '24 06:01 bultiful

样的问题,请问有解决方

木有啊,只能限制输入和生成的长度挣扎一下,尝试了很多方法都无法清除多余显存

我这边也差不多 只能定期重启服务

Gavin2318 avatar Jan 17 '24 05:01 Gavin2318

有执行的代码块吗,我这边尝试关闭了use_cache,可以防止显存溢出,但是推理速度就很慢了。

joshuaWang-bit avatar Feb 21 '24 00:02 joshuaWang-bit

您发给我的信件已经收到!Best Regards!

bultiful avatar Feb 21 '24 00:02 bultiful