ChatGLM-6B
ChatGLM-6B copied to clipboard
[Feature] <如何基于deepspeed实现单机多卡或者多机多卡的推理?>
Is your feature request related to a problem? Please describe.
No response
Solutions
有人实现了基于deepspeed框架进行多机多卡推理吗?
Additional context
No response
一个gpu起一个Server,最后用nginx负载。
https://github.com/microsoft/Megatron-DeepSpeed 这个项目可以帮助deepspeed实现多卡多机推理,但需要改动模型