Baichuan2 Baichuan2-13B-chat-4bit推理时显存会暴涨，求解决方案

Baichuan2-13B-chat-4bit推理时显存会暴涨，求解决方案

Open bultiful opened this issue 1 year ago • 12 comments

模型部署后，显存占用大概10G，进行推理时会出现显存增长的，目前在一张V100上部署，显存已经拉满了，感觉会溢出。

Dec 05 '23 08:12 bultiful

尝试了with torch.no_grad()、显存释放，都不能消除显存占用问题，求大佬救命

Dec 05 '23 08:12 bultiful

试过context很长的时候会溢出吗？

Dec 25 '23 08:12 baichuan-assistant

/assign @bultiful

Dec 25 '23 08:12 baichuan-assistant

您发给我的信件已经收到！Best Regards！

Dec 25 '23 08:12 bultiful

模型部署后，显存占用大概10G，进行推理时会出现显存增长的，目前在一张V100上部署，显存已经拉满了，感觉会溢出。

请问您部署的环境是什么，cuda版本什么

Jan 04 '24 14:01 Annie0095

请问

v100，cuda11.7

Jan 05 '24 01:01 bultiful

试过context很长的时候会溢出吗？

长度我限制了，但长时间调用模型做生成后，在V100上显存还是被占满了

Jan 05 '24 01:01 bultiful

试过context很长的时候会溢出吗？

长度我限制了，但长时间调用模型做生成后，在V100上显存还是被占满了

也发现同样的问题，请问有解决方案了吗？

Jan 11 '24 06:01 Gavin2318

样的问题，请问有解决方

木有啊，只能限制输入和生成的长度挣扎一下，尝试了很多方法都无法清除多余显存

Jan 11 '24 06:01 bultiful

样的问题，请问有解决方

木有啊，只能限制输入和生成的长度挣扎一下，尝试了很多方法都无法清除多余显存

我这边也差不多只能定期重启服务

Jan 17 '24 05:01 Gavin2318

有执行的代码块吗，我这边尝试关闭了use_cache，可以防止显存溢出，但是推理速度就很慢了。

Feb 21 '24 00:02 joshuaWang-bit

您发给我的信件已经收到！Best Regards！

Feb 21 '24 00:02 bultiful