MMSA icon indicating copy to clipboard operation
MMSA copied to clipboard

MMSA is a unified framework for Multimodal Sentiment Analysis.

Results 68 MMSA issues
Sort by recently updated
recently updated
newest added

如遇百度云链接失效,请在此issue下回复。我们会尽快更新链接。 If the BaiduYun link is dead again, please reply under this issue. We'll update as soon as possible.

您好,我下载了你们提供的数据集,发现MOSEI**缺少video_id是Y7qkyMyanjU**文件夹,少了四个视频片段。然后我还有个问题是四个数据集**能否提供原始的语音文件**,目前只有视频和文本,语音需要自己提。

作者您好,我在使用is_tune=True调整模型参数后,选择了保存在csv文件中效果较好的对应参数进行训练,但是无法达到csv文件中参数所对应的精度,请问可能是什么原因导致的呢

您好,我在使用了MMSA_run训练ef_lstm模型后得到了一个pth文件,我想用自己的视频进行测试,在使用MMSA_FET之后得到了单视频的pkl文件,请问我要如何使用MMSA_test()函数进行测试?我看APIs里没有对MMSA_test()的测试用例。

仔细地看了论文和数据集,关于三个模态的processed的数据集我有一些问题: 1. 文本模态为什么用bert模型处理后,是将每个单词表示为768个特征的向量而不是将一个句子表示? ![image](https://github.com/thuiar/MMSA/assets/57137830/ea9e89df-3ac3-4567-9204-4768ffce7c49) 2. 还有你们的文本处理过后的数据第二维是39,意思是指你们将所有句子通过padding使得单词数量变为39吗? ![image](https://github.com/thuiar/MMSA/assets/57137830/050ab17e-1d23-4660-82ca-40fa782451cf) 3. 同理,音频和视频模态的第二维是不是也是时间步长呢?可以告知一下音频模态的400时间步长是指采样频率为400HZ吗?视频上论文写得采样频率是30HZ,但是时间步长是55,这也是padding的结果是吧? ![image](https://github.com/thuiar/MMSA/assets/57137830/01a35377-566d-42a9-b7a8-b471c431f220) ![image](https://github.com/thuiar/MMSA/assets/57137830/ab38fe4f-6f19-4455-ad82-8d5d10114167)

你好,我使用原始的CMU-MultimodalSDK所提取的音频和视频特征维度分别是74和47,而这里的音频和视频特征维度分别是5和20,是更改了特征提取工具吗,还是仅仅更改了提取的特征维度,并未修改特征提取工具。在实验中需要将模态信息映射至同一维度,由于维度差别挺大,所以有这样的疑惑,是为了得到更好的特征才重新提取音视频特征吗

您好 想请问如果想要对实验结果进行可视化的展示 如性能曲线 混淆矩阵这些 框架有对应的接口吗 或者应该在哪里补充对应的代码呢

请问一下为什么一些新的模型比如cenet,tetfn这些模型在sims和simsv2上的变现还不如以前很早的模型的结果呢,是和语言表示有关系吗?还有就是对于results中在sims和simsv2上的结果是作者自己复现的吗,论文中并没有给出相关模型在这两个数据集上的结果

你好,请问在MSA任务中,Has0_acc_2、Non0_acc_2、Multi_acc_5,Multi_acc_7、MAE、Corr这些指标,是选取来自同一个epoch下的,还是在不同epoch下分别选择最好的结果

如果可以的话,能指导一下怎么处理自己的数据集吗,谢谢作者