如果想把MoE模型中的不同Expert加载到不同的GPU上，请问这个在工程上有什么思路做吗？

Open OrangeTaoer opened this issue 1 year ago • 1 comments

如果想把minimind的MoE模型中的不同Expert加载到不同的GPU上，请问这个在工程上有什么思路做吗？

Apr 05 '25 08:04 OrangeTaoer

参考其它项目EP专家并行的代码库如DeepEP, megatron, SGLang，不同GPU加载不同专家权重，forward/backward计算需要有activation的dispatch拆分，每个选中的专家在不同GPU的计算，最后combine合并。代码比minimind的实现复杂多了。

Apr 25 '25 03:04 wangdaw2023