minimind

minimind copied to clipboard

Published 4 months ago •

Reame
Issues

add smart gradient accumulation

Open powermano opened this issue 1 year ago • 0 comments

对于pretrain 和 SFT，通常使用大一点的梯度累计，所以只在最后一次累计同步梯度能够减少通信开销，加速训练。

Feb 21 '25 09:02 powermano