Emotion-LLaMA Question about DFEW?

作者您好！首先再次感谢您花费精力维护repo，respect。但是我们这边在复现DFEW数据集时仍然遇到了一些问题，希望能获得您的帮助：

DFEW的mae,video mae,audio特征没有开源，您是否方便将这部分特征也共享一下？
我们按照您的提取特征的代码，video使用original提取videomae特征，也使用original的视频提取clip的第一帧特征； 3.小于1s的视频似乎无法提取音频特征？所以我们将小于1s的音频pad到1s； 4.DFEW没有提供文本的subtitle，所以我们在prompt中直接删除了这一部分；
使用emotion-llama执行zero-shot的分类，修改提示词到DFEW的7类，效果很差：WAR (Accuracy): 0.3533，UAR (Unweighted Average Recall): 0.2733

我们认为可能还是提取特征的过程出现了问题（特别是音频？），希望能够得到您的指点，谢谢！

Mar 19 '25 06:03 vhzy

1.DFEW的特征已上传到Google Drive，链接如下：

https://drive.google.com/drive/folders/1LdR4qJgKQK6NrR_Hw0cdiPlAciGq1c4z?usp=sharing 2.我们用的是在多模态情绪数据集上预训练过的VideoMAE模型参数提取的特征。没有用CLIP提取特征。 3.我们使用HuBERT模型提取音频特征，没有遇到这个问题。但是将音频pad到1s，应该没影响。 4.DFEW没有提供文本的subtitle，我们是用一些ASR工具从音频中识别subtitle（虽然不完全正确）。 5.如果你们要测emotion-llama执行zero-shot的分数话，建议特征和prompt设置要和预训练的模型一致。以下是测试zero-shot分数用到的特征： HL-UTT,maeV_399_UTT,mae_340_UTT

Mar 19 '25 11:03 ZebangCheng

感谢！

Mar 19 '25 11:03 vhzy

Emotion-LLaMA Emotion-LLaMA copied to clipboard

Question about DFEW?

Emotion-LLaMA
Emotion-LLaMA copied to clipboard