FlagAI
FlagAI copied to clipboard
[Question]: 训练速度为何能达到 Megatron+DeepSpeed ZeRO-2 的八倍
Description
在公众号中号称训练速度是Megatron(公众号名称写错了,注意去修改一下)+DeepSpeed ZeRO-2的8倍,这块的训练方法能给出来吗?是example中给出来的简单训练脚本吗? 两边实验的实验脚本能给出来吗?
坐等分享
Alternatives
No response
非常期待官方回复。
我们在FlagAI的框架中集成了Megatron和Deepspeed的支持。 在训练33B模型的时候,如果是2台A100 40G的机器情况下对比,我们得到了上述的结论,详细的信息整理会后发出来。
先关闭,如有问题重新打开issue,谢谢