ChatGLM-6B
ChatGLM-6B copied to clipboard
[Help] 是否支持多进程部署
Is there an existing issue for this?
- [X] I have searched the existing issues
Current Behavior
api.py 文件提供了使用uvicorn 结合 FastAPI 进行部署的例子
uvicorn 服务器启动时,workers 数量设置为1, 这是否是由于在多进程模式下,无法加载模型才这样设置的呢?
使用python web框架部署时,是否支持多进程部署方式呢?
Expected Behavior
No response
Steps To Reproduce
nothing
Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
Anything else?
No response
我是Django + gunicorn部署的,原先gunicorn配置的workers=1,发现只能同时响应一个请求。
设置 workers = 2 的时候,就能并发2个请求了,但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了

加一层消息队列好了
我是Django + gunicorn部署的,原先gunicorn配置的workers=1,发现只能同时响应一个请求。
设置 workers = 2 的时候,就能并发2个请求了,但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了
![]()
有办法让模型只加载一份,但是能实现并发吗?比如进程/线程间共享变量?
同问。而且我用的多卡启动方式,高并发请求结束会导致第一张卡显存无法彻底回收,最终导致第一张卡显存占满。
我是Django + gunicorn部署的,原先gunicorn配置的workers=1,发现只能同时响应一个请求。
设置 workers = 2 的时候,就能并发2个请求了,但是显存也会翻倍。如果要支持高并发的话感觉就很费显卡了
![]()
大佬,请问是怎么部署的可以发下源码吗
加一层消息队列好了
请问具体怎么操作可以请教下吗