MMSA issues

百度云链接失效请进 BaiduYun Dead Link Issue

12

如遇百度云链接失效，请在此issue下回复。我们会尽快更新链接。 If the BaiduYun link is dead again, please reply under this issue. We'll update as soon as possible.

FlameSky-S

数据集原始视频缺失

您好，我下载了你们提供的数据集，发现MOSEI**缺少video_id是Y7qkyMyanjU**文件夹，少了四个视频片段。然后我还有个问题是四个数据集**能否提供原始的语音文件**，目前只有视频和文本，语音需要自己提。

Yimi81

关于使用tune调参后的问题

作者您好，我在使用is_tune=True调整模型参数后，选择了保存在csv文件中效果较好的对应参数进行训练，但是无法达到csv文件中参数所对应的精度，请问可能是什么原因导致的呢

Hugh0110

关于使用MMSA_test()的问题

12

您好，我在使用了MMSA_run训练ef_lstm模型后得到了一个pth文件，我想用自己的视频进行测试，在使用MMSA_FET之后得到了单视频的pkl文件，请问我要如何使用MMSA_test()函数进行测试？我看APIs里没有对MMSA_test()的测试用例。

zhanxingluan

仔细地看了论文和数据集，关于三个模态的processed的数据集我有一些问题： 1. 文本模态为什么用bert模型处理后，是将每个单词表示为768个特征的向量而不是将一个句子表示？ ![image](https://github.com/thuiar/MMSA/assets/57137830/ea9e89df-3ac3-4567-9204-4768ffce7c49) 2. 还有你们的文本处理过后的数据第二维是39，意思是指你们将所有句子通过padding使得单词数量变为39吗？ ![image](https://github.com/thuiar/MMSA/assets/57137830/050ab17e-1d23-4660-82ca-40fa782451cf) 3. 同理，音频和视频模态的第二维是不是也是时间步长呢？可以告知一下音频模态的400时间步长是指采样频率为400HZ吗？视频上论文写得采样频率是30HZ，但是时间步长是55，这也是padding的结果是吧？ ![image](https://github.com/thuiar/MMSA/assets/57137830/01a35377-566d-42a9-b7a8-b471c431f220) ![image](https://github.com/thuiar/MMSA/assets/57137830/ab38fe4f-6f19-4455-ad82-8d5d10114167)

QINZIRUI

关于mosi数据集中提取音视频特征维度的问题

2

你好，我使用原始的CMU-MultimodalSDK所提取的音频和视频特征维度分别是74和47，而这里的音频和视频特征维度分别是5和20，是更改了特征提取工具吗，还是仅仅更改了提取的特征维度，并未修改特征提取工具。在实验中需要将模态信息映射至同一维度，由于维度差别挺大，所以有这样的疑惑，是为了得到更好的特征才重新提取音视频特征吗

Chuan76