Baichuan2 icon indicating copy to clipboard operation
Baichuan2 copied to clipboard

百川 max-z loss 在megatron框架下的反向传播是否可以提供一下代码?

Open flower-with-safe opened this issue 2 years ago • 3 comments

目前我们在使用megatron框架下尝试对百川2-13B模型进行继续预训练。 想尝试一下百川论文中提出的max-z loss。 但是megatron框架不仅需要实现损失函数的forward部分,还要实现backward部分。 想问一下这部分代码百川是否可以提供一下? 感谢!

flower-with-safe avatar Oct 18 '23 08:10 flower-with-safe

https://github.com/NVIDIA/Megatron-LM/pull/551/files

flower-with-safe avatar Oct 19 '23 09:10 flower-with-safe

自己顶自己一下,我自己实现了一个版本。

flower-with-safe avatar Oct 19 '23 09:10 flower-with-safe

是 2e-4 还是 2e^-4 呢?

beginlner avatar Jan 08 '24 07:01 beginlner