ZebangCheng

Results 75 comments of ZebangCheng

(1) I am not sure about the size of your dataset. If your focus is solely on the emotion recognition task, you can fine-tune your dataset using the pre-trained checkpoint...

Hello :) Yes, this operation aligns with our design. In the actual implementation, the Temporal Encoder also applies an averaging operation. The reason we emphasize the averaging operation for the...

Hello, Thank you for your question! You're right to notice that there are no pre-extracted EVA features in the shared Google Drive folder. This is because the **EVA model, used...

具体的特征提取代码可以在以下google driver获取: https://drive.google.com/drive/folders/1WpQBV7XQsGnLr6B7bv4kKn4suW-o8fWO?usp=sharing 由于我在提取特征时,忘记设置随机种子,导致后续我们按照同样的步骤提取的特征也会和实际用的特征有一点点差别。如果想完全复现我们在论文中的实验结果,请使用我们提取好的特征: https://drive.google.com/drive/folders/1Atm7x_J4OQsBQ32vvi-c2oM3m3P07WTF?usp=sharing 如果想用在其它数据集,可以按照代码提取对应的特征。

我们一开始也是认为EVA的特征太大,会影响其它特征的学习,所以就只使用EVA的Class token(image_cls_tk = image_embeds[:, :1, :] # [1, 1, 1408])和其它特征融合输入到大模型,但是效果较差。 后面我们保留了EVA的所有特征(image_inputs_llama = self.llama_proj(image_embeds) # [1, 256, 4096])和其它特征一起输入到大模型,效果很好,超出了我们的预期。我们认为原本的EVA特征对应的是大模型的world knowledge,然后我们新添加的特征是professional knowledge。 最后我们前期通过简单的消融实验,只包含EVA特征,其它特征设置为0向量训练模型,测试结果较差。所以这样的组合是我们的实验效果最好的。