minimind icon indicating copy to clipboard operation
minimind copied to clipboard

add smart gradient accumulation

Open powermano opened this issue 1 year ago • 0 comments

对于pretrain 和 SFT, 通常使用大一点的梯度累计,所以只在最后一次累计同步梯度能够减少通信开销,加速训练。

powermano avatar Feb 21 '25 09:02 powermano