LLaMA-Pro 关于零初始化和扩展层的位置

关于零初始化和扩展层的位置

Open ouyanxi1125 opened this issue 1 year ago • 4 comments

trafficstars

关于扩展层的位置，源码上是等间距均匀分布，请问有什么理论或者实验依据吗？
关于零初始化，选的是 'down_proj' in k or 'o_proj' in k 这两个，即attention和MLP的最后一层，请问有啥理论和实验依据吗？感谢解答【拱手】

Jun 07 '24 09:06 ouyanxi1125

interleave进行扩展我们参考的是Automated Progressive Learning for Efficient Training of Vision Transformers的图（c），这边扩展的位置不一定是最佳的，yi-9b和solar也使用了不一样的扩展位置，值得探索
对于零初始化，之前有文章提出对于LN进行初始化，Staged training for transformer language models，我们发现在llama的设置下，LN设置为0会导致梯度为0无法训练，我们在论文中进行了分析，于是改为对down_proj和o_proj进行初始化

Jun 07 '24 10:06 hills-code

超级感谢！关于第二点我看了论文，很理解，但是至于为啥是down_proj和o_proj，还是存在疑问，up_proj是不是也是可行的？

Jun 07 '24 10:06 ouyanxi1125

我们参照了adapter的方式在输出的地方清零，在up的时候清零我没算过，不确定有没有梯度，你可以试一下

Jun 08 '24 03:06 hills-code

你好，请问下down_proj， o_proj初始化为0，o_proj，down_proj有梯度吗。

Jul 26 '24 05:07 JiwenJ