LaVIN icon indicating copy to clipboard operation
LaVIN copied to clipboard

关于Repadapter的位置问题

Open YuyingShang opened this issue 2 years ago • 1 comments

我注意到在Repadapter的论文中,实验表明在FFN和MHA前都加入适配器可以获得更好的效果。但是在Lavin的训练代码中,我注意到您仅在MHA前应用了适配器,请问为什么舍弃在FFN前添加适配器的操作了呢?

YuyingShang avatar Jul 04 '23 09:07 YuyingShang

在视觉模型中的确如此,但是在LLM中我们发现增加FFN之前的adapter增益并不明显。因此在权衡参数量的情况下,只保留了MHA的部分。

luogen1996 avatar Jul 04 '23 13:07 luogen1996