minimind
minimind copied to clipboard
如果想把MoE模型中的不同Expert加载到不同的GPU上,请问这个在工程上有什么思路做吗?
参考其它项目EP专家并行的代码库如DeepEP, megatron, SGLang,不同GPU加载不同专家权重,forward/backward计算需要有activation的dispatch拆分,每个选中的专家在不同GPU的计算,最后combine合并。代码比minimind的实现复杂多了。