关于Repadapter的位置问题

Open YuyingShang opened this issue 2 years ago • 1 comments

我注意到在Repadapter的论文中，实验表明在FFN和MHA前都加入适配器可以获得更好的效果。但是在Lavin的训练代码中，我注意到您仅在MHA前应用了适配器，请问为什么舍弃在FFN前添加适配器的操作了呢？

Jul 04 '23 09:07 YuyingShang

在视觉模型中的确如此，但是在LLM中我们发现增加FFN之前的adapter增益并不明显。因此在权衡参数量的情况下，只保留了MHA的部分。

Jul 04 '23 13:07 luogen1996