fastllm
fastllm copied to clipboard
使用gunicorn开多线程报 Error: cublas error.
我用gunicorn+flask搭了一个简单的多线程推理服务 gunicorn --threads 10 "client_glm26b:APP" -b "0.0.0.0:19002" -w 1 --preload
调用chat报错 Error: cublas error.
单独起flask功能正常
大概有多少线程调用呢,这个错误有可能是显存爆了,之后会加上并发控制和显存控制
不是,我的意思是我的gunicorn开了4个线程,但是我只调了一次,发了个你好。因为单独起flask功能正常,所以我觉得应该不是显存爆了
不是,我的意思是我的gunicorn开了4个线程,但是我只调了一次,发了个你好。因为单独起flask功能正常,所以我觉得应该不是显存爆了
我是类似的问题,显存只占用了12G左右,使用的是A800来跑的,不会爆显存
大佬目前有解决方案嘛?我也遇到这个问题了