oneflow
oneflow copied to clipboard
modify clip_grad with no to_global
去掉clip_grad 范数计算中的第一个to_global, 以减少在tensor parallel情况下不必要的 all gather