Baichuan2
Baichuan2 copied to clipboard
百川 max-z loss 在megatron框架下的反向传播是否可以提供一下代码?
目前我们在使用megatron框架下尝试对百川2-13B模型进行继续预训练。 想尝试一下百川论文中提出的max-z loss。 但是megatron框架不仅需要实现损失函数的forward部分,还要实现backward部分。 想问一下这部分代码百川是否可以提供一下? 感谢!
https://github.com/NVIDIA/Megatron-LM/pull/551/files
自己顶自己一下,我自己实现了一个版本。
是 2e-4 还是 2e^-4 呢?