TigerBot
TigerBot copied to clipboard
关于deepspeed的限制突破的代码是哪部分
主要是内存管理的部分,在训练过程中DP会消耗大量的内存去存储checkpoint,我们优化了框架源码中的存储方式,减少了了内存消耗。
非常关注这里,deepspeed训练中断问题是最最最最最老大难的问题了。。。。
还跟你的集群大小,通信配置有关。需要根据机器配置调整各项有可能影响的参数,定位内存或者显存瓶颈。
你好,优化过后的deepspeed代码会放出来吗?我看readme中推荐的deepspeed仍然是官方版本