TigerBot icon indicating copy to clipboard operation
TigerBot copied to clipboard

关于deepspeed的限制突破的代码是哪部分

Open BEILOP opened this issue 1 year ago • 4 comments

BEILOP avatar Jun 07 '23 09:06 BEILOP

主要是内存管理的部分,在训练过程中DP会消耗大量的内存去存储checkpoint,我们优化了框架源码中的存储方式,减少了了内存消耗。

Vivicai1005 avatar Jun 07 '23 10:06 Vivicai1005

非常关注这里,deepspeed训练中断问题是最最最最最老大难的问题了。。。。

BitVoyage avatar Jun 07 '23 12:06 BitVoyage

还跟你的集群大小,通信配置有关。需要根据机器配置调整各项有可能影响的参数,定位内存或者显存瓶颈。

Vivicai1005 avatar Jun 07 '23 12:06 Vivicai1005

你好,优化过后的deepspeed代码会放出来吗?我看readme中推荐的deepspeed仍然是官方版本

Louis-y-nlp avatar Jun 08 '23 03:06 Louis-y-nlp