模型结构问题请教

Open yhl41001 opened this issue 11 months ago • 1 comments

你好，有个模型结构的问题请假一下：从论文的研究看，视觉特征对不同的LLM层重要性不同，那模型的结构应该是在不同的LLM层对视觉特征的保留数量递减，但论文的设计是在视觉特征送入LLM前对视觉特征和文本特征做了相关性压缩，而送入LLM的特征在每层的重要性仍然是一样的，所以模型的设计和论文前期对视觉特征在不同LLM层的重要性不同这个结论并无太大相关性，是这样吗？

Feb 12 '25 08:02 yhl41001

个人理解，相当于把prefusion模块当成 LLM的前几层，LLM本身当成LLM的后面的层，所以 LLM在后面本身接收到的信息少了也没事

Feb 13 '25 03:02 MiloQ