Baichuan2
Baichuan2 copied to clipboard
Baichuan2-13B-chat-4bit推理时显存会暴涨,求解决方案
模型部署后,显存占用大概10G,进行推理时会出现显存增长的,目前在一张V100上部署,显存已经拉满了,感觉会溢出。
尝试了with torch.no_grad()、显存释放,都不能消除显存占用问题,求大佬救命
试过context很长的时候会溢出吗?
/assign @bultiful
您发给我的信件已经收到!Best Regards!
模型部署后,显存占用大概10G,进行推理时会出现显存增长的,目前在一张V100上部署,显存已经拉满了,感觉会溢出。
请问您部署的环境是什么,cuda版本什么
请问
v100,cuda11.7
试过context很长的时候会溢出吗?
长度我限制了,但长时间调用模型做生成后,在V100上显存还是被占满了
试过context很长的时候会溢出吗?
长度我限制了,但长时间调用模型做生成后,在V100上显存还是被占满了
也发现同样的问题,请问有解决方案了吗?
样的问题,请问有解决方
木有啊,只能限制输入和生成的长度挣扎一下,尝试了很多方法都无法清除多余显存
样的问题,请问有解决方
木有啊,只能限制输入和生成的长度挣扎一下,尝试了很多方法都无法清除多余显存
我这边也差不多 只能定期重启服务
有执行的代码块吗,我这边尝试关闭了use_cache,可以防止显存溢出,但是推理速度就很慢了。
您发给我的信件已经收到!Best Regards!