fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

使用gunicorn开多线程报 Error: cublas error.

Open wqh17101 opened this issue 1 year ago • 2 comments

我用gunicorn+flask搭了一个简单的多线程推理服务 gunicorn --threads 10 "client_glm26b:APP" -b "0.0.0.0:19002" -w 1 --preload 调用chat报错 Error: cublas error.

单独起flask功能正常

wqh17101 avatar Jul 15 '23 05:07 wqh17101

大概有多少线程调用呢,这个错误有可能是显存爆了,之后会加上并发控制和显存控制

ztxz16 avatar Jul 15 '23 07:07 ztxz16

不是,我的意思是我的gunicorn开了4个线程,但是我只调了一次,发了个你好。因为单独起flask功能正常,所以我觉得应该不是显存爆了

wqh17101 avatar Jul 15 '23 07:07 wqh17101

不是,我的意思是我的gunicorn开了4个线程,但是我只调了一次,发了个你好。因为单独起flask功能正常,所以我觉得应该不是显存爆了

我是类似的问题,显存只占用了12G左右,使用的是A800来跑的,不会爆显存

White-Friday avatar Jul 25 '23 03:07 White-Friday

大佬目前有解决方案嘛?我也遇到这个问题了

2111905222 avatar Jul 31 '23 07:07 2111905222