Emotion-LLaMA Questions about Emotion Reasoning

作者您好，我现在正在尝试用您训好的MER2024-best这个模型对MER2024这个数据集中已打标签的样本进行情感推理，但我发现无论我用什么样的指令，模型都不会按我指令要求的生成情感描述，只是一味的重复人物的台词，我已按照您的要求对视觉信息和音频信息进行了编码。想请教一下作者这个会是什么原因导致的，是不是由于论文中提示模板的设计导致模型误以为只需要重复人物的台词就好了？以下是我在做情绪推理时用的指令和模型生成的结果

Mar 23 '25 03:03 Yan-cloud921

MER2024-best这个模型主要用于参加比赛，进行情绪分类任务，所以在后期微调时，只训练了情绪识别任务，情绪推理任务完全没有涉及。建议将MER2024-best这个参数更换为Emotion-LLaMA.pth参数，这个模型参数能够进行情绪推理。

Mar 23 '25 13:03 ZebangCheng

感谢作者耐心的解答，问题已经解决啦

Mar 24 '25 03:03 Yan-cloud921

作者大大，抱歉再次打扰您，后续我又用了Emotion-LLaMA.pth这个模型对MER2024这个数据集中已打标签的样本进行情感分类，目前遇到了几个问题想请教一下作者： 1、尽管我在指令中指定让模型输出happy, sad, neutral, angry, worried, surprise中的一类，但是模型还是会重复输入的文本，甚至多次重复人物的台词，如图所示，然后我还去算了一下这个分类的准确度，也是只有0.4763

所用指令如下

然后我又用了MER2024-best这个模型来进行分类，模型最终输出的结果非常不好，类别太多我就没有贴出来了，与官方给的标签相比准确率只有0.3962，效果十分不好。想请教一下作者您有遇到过类似的问题吗？因为这部分所用到的编码文件是我按照您所给的代码和方法进行编码的，我在想是不是因为这个编码的问题，因为我在别的issue上看到作者您有用checkpoint_best.pth这个模型对已打标签的数据进行评估，准确率也有八十多，但我自己编码后再用checkpoint_best.pth这个模型做评估的时候准确率只有0.3678，结果如下图所示，我感觉大概率是这个编码的问题。请问作者方便开源一下这部分的编码文件吗？

2、您在readme中提到checkpoint_best.pth这个模型在MER-NOISE这个赛道的F1-score为84.52，后续我也跑了相关的实验，复现的结果和您给的结果差不多，但我有个疑问是，您对mer2024没有打标签的数据是怎么打的标签呢？是按您在emotion-llama这篇论文所提到的那样通过检测AU将伪标签分给视频段的吗？ 3、后续我又尝试了用checkpoint_best.pth这个模型对MER2024_NOISE中两万个样本进行评估，最后的准确率在70左右，F1-score为71.37，结果如下图所示。想请问作者你们之前有对这两万个样本做过实验吗？

Mar 24 '25 13:03 Yan-cloud921

1.编码文件指的是特征吗？我们都开源了相关特征：

https://drive.google.com/drive/folders/1ModyjVKWcWjsacrChDkaTSLpWjnC_lo8?usp=sharing

2.对于mer2024数据中无标签的数据样本，我们是使用MER2024-baseline中的代码，融合7-8个多模态特征，进行情绪类别分类，将分类结果作为伪标签。即我们训练了baseline模型来打伪标签。更具体的，我们先用baseline模型打伪标签用于训练Emotion-LLaMA，再用Emotion-LLaMA打伪标签反过来训练baseline模型，就这样迭代大概两轮后，分数就提升不上去了。

3.我们就是对无标签的两万个样本打伪标签。F1-score为71.37的分数是MER2024-Noise测试集的分数吗？

Mar 30 '25 02:03 ZebangCheng

1.编码文件指的是特征吗？我们都开源了相关特征：

https://drive.google.com/drive/folders/1ModyjVKWcWjsacrChDkaTSLpWjnC_lo8?usp=sharing

2.对于mer2024数据中无标签的数据样本，我们是使用MER2024-baseline中的代码，融合7-8个多模态特征，进行情绪类别分类，将分类结果作为伪标签。即我们训练了baseline模型来打伪标签。更具体的，我们先用baseline模型打伪标签用于训练Emotion-LLaMA，再用Emotion-LLaMA打伪标签反过来训练baseline模型，就这样迭代大概两轮后，分数就提升不上去了。

3.我们就是对无标签的两万个样本打伪标签。F1-score为71.37的分数是MER2024-Noise测试集的分数吗？

感谢作者的耐心解答，真的让我备受鼓舞，我近期是在尝试对mer2024中有标签的数据样本进行评估，然后跑出来的结果不太理想，因此就在想大概率应该就是我所提取的特征有问题，刚好我在别的issue上看到别的同学也遇到过这个问题https://github.com/ZebangCheng/Emotion-LLaMA/issues/44#issuecomment-2658151957

作者您所分享的这个特征如果我没看错的话应该是mer2024中没打标签的20000个样本的特征，我目前所需要的是mer2024中5030个已有标签的样本的特征，不知道作者您是否方便分享一下这部分的特征~~~///(^v^)\~~~

F1-score为71.37的分数是我用checkpoint_best.pth对MER2024-Noise中那20000个样本进行评估所得到的分数

Mar 31 '25 03:03 Yan-cloud921

ok，mer2024中5030个视频样本是训练集，MER2024的训练集的5030个样本来自于MER2023，所以我们没有专门去开源这一部分的特征。这一部分的特征是和MER2023的所有特征一起开源，在以下链接可以找到：

https://drive.google.com/drive/folders/1fudMoAC2IXeInuhAEYbGEES13ungLm_G?usp=sharing

MER2024-Noise中那20000个样本没有真实的label，怎么进行评测？对伪标签进行评测？感觉这样有点怪怪的。

Apr 02 '25 02:04 ZebangCheng