LLaVA-Mini
LLaVA-Mini copied to clipboard
模型结构问题请教
你好,有个模型结构的问题请假一下: 从论文的研究看,视觉特征对不同的LLM层重要性不同,那模型的结构应该是在不同的LLM层对视觉特征的保留数量递减,但论文的设计是在视觉特征送入LLM前对视觉特征和文本特征做了相关性压缩,而送入LLM的特征在每层的重要性仍然是一样的,所以模型的设计和论文前期对视觉特征在不同LLM层的重要性不同这个结论并无太大相关性,是这样吗?
个人理解,相当于把prefusion模块当成 LLM的前几层,LLM本身当成LLM的后面的层,所以 LLM在后面本身接收到的信息少了也没事