minimind
minimind copied to clipboard
add smart gradient accumulation
对于pretrain 和 SFT, 通常使用大一点的梯度累计,所以只在最后一次累计同步梯度能够减少通信开销,加速训练。