Emotion-LLaMA icon indicating copy to clipboard operation
Emotion-LLaMA copied to clipboard

Question about DFEW?

Open vhzy opened this issue 8 months ago • 2 comments

作者您好!首先再次感谢您花费精力维护repo,respect。但是我们这边在复现DFEW数据集时仍然遇到了一些问题,希望能获得您的帮助:

  1. DFEW的mae,video mae,audio特征没有开源,您是否方便将这部分特征也共享一下?
  2. 我们按照您的提取特征的代码,video使用original提取videomae特征,也使用original的视频提取clip的第一帧特征; 3.小于1s的视频似乎无法提取音频特征?所以我们将小于1s的音频pad到1s; 4.DFEW没有提供文本的subtitle,所以我们在prompt中直接删除了这一部分;
  3. 使用emotion-llama执行zero-shot的分类,修改提示词到DFEW的7类,效果很差:WAR (Accuracy): 0.3533,UAR (Unweighted Average Recall): 0.2733

我们认为可能还是提取特征的过程出现了问题(特别是音频?),希望能够得到您的指点,谢谢!

vhzy avatar Mar 19 '25 06:03 vhzy

1.DFEW的特征已上传到Google Drive,链接如下:

https://drive.google.com/drive/folders/1LdR4qJgKQK6NrR_Hw0cdiPlAciGq1c4z?usp=sharing 2.我们用的是在多模态情绪数据集上预训练过的VideoMAE模型参数提取的特征。没有用CLIP提取特征。 3.我们使用HuBERT模型提取音频特征,没有遇到这个问题。但是将音频pad到1s,应该没影响。 4.DFEW没有提供文本的subtitle,我们是用一些ASR工具从音频中识别subtitle(虽然不完全正确)。 5.如果你们要测emotion-llama执行zero-shot的分数话,建议特征和prompt设置要和预训练的模型一致。以下是测试zero-shot分数用到的特征: HL-UTT,maeV_399_UTT,mae_340_UTT

ZebangCheng avatar Mar 19 '25 11:03 ZebangCheng

感谢!

vhzy avatar Mar 19 '25 11:03 vhzy