LaVIN
LaVIN copied to clipboard
关于Repadapter的位置问题
我注意到在Repadapter的论文中,实验表明在FFN和MHA前都加入适配器可以获得更好的效果。但是在Lavin的训练代码中,我注意到您仅在MHA前应用了适配器,请问为什么舍弃在FFN前添加适配器的操作了呢?
在视觉模型中的确如此,但是在LLM中我们发现增加FFN之前的adapter增益并不明显。因此在权衡参数量的情况下,只保留了MHA的部分。