Ziqi Yuan comments

Results 42 comments of


                                            Ziqi Yuan

关于数据集MOSEI的使用

您好，有两种方法，第一种方法是：生成新的pkl文件（一次操作，之后就只需要load生成的新pkl就可以了），构造pkl文件的具体方法是将提供的pkl 与原始CMU提供的pkl文件根据video_id属性进行merge操作；第二种方法是在init 函数里分别夹在上述两个pkl文件，获得相应的内容（每次运行都需要load两次pkl文件，可能会慢一些）。

有什么模型可以只输入视频和音频，不需要输入caption的吗

目前多模态的模型本质上都可以处理两模态输入问题，把文本模态用 “零向量” 填充（实际上的操作是预训练模型中用[UNK]替换）与视频音频特征序列一起输入模型即可。但这样做一般训练得到的模型性能很差（尤其是在MOSI MOSEI两个早期的数据集上，通常和数据偏置情况一致，等价于直接回归值为训练样本均值的情况。）所以，为了能训练两模态的模型，其实可以考虑在 [SIMS v2](https://github.com/thuiar/ch-sims-v2) 这类模态相对均衡的数据集上训练模型、进行性能测试。如果同学是想做端到端的音视频大模型，情况或许会有所不同，但目前的测试效果来看（MLLM 目前对内容等客观事实的捕捉好于对情感等主观问题的理解，这在很多其他团队的论文中也可以验证）还有一段差距。不过根据我对MOSI和MOSEI数据质量的了解，以及之前的（失败）经验，在这两个数据集上训练端到端模型基本不行。如果说最新的一些工作可以直接回答你的问题，可以参考一些序列结构的多模态模型，可以处理任意模态数量输入的情况，如： MultiModN — Multimodal, Multi-Task, Interpretable Modular Networks

有什么模型可以只输入视频和音频，不需要输入caption的吗

简单地说，现在多模态的模型如果说要做情感分析问题，基本都要带上文本模态，因为效果好。其实不仅仅是情感任务，所有多模态的MLLM都可以认为有主导模态的存在，大多数论文认为是文本，有少部分发现是其他模态。（我之前问过一些同学，他们的任务也是一样，语言果然是最直接，语义最丰富的模态）。

如何基于单模态进行训练

只需要使用原来的借口获得三个模态的序列，但只将获得的 video 模态序列输入到单模态模型中即可。

数据对齐与不对齐的影响

数据对齐是指在ASR获取文本信息之后，获得每个文本token对应的时间范围，将每个时间段中音频、视频模态视为一个整体计算特征的平均值，以获得与文本token长度一致，时间对应的特征序列。在提供的MMSA框架中，提供了几种通过模型、启发式“对齐”的方法，这些方法的作用是将音视频模态序列长度与文本模态统一，进而支持通过concat的早期融合方法。对齐与非对齐方法对性能可能的影响在于： 1. （主要）音视频的序列长度，对齐后的特征长度较短，（或许）更有利于特征表示学些，及高效训练。 2. 提供的模态特征粒度；（对应于每个文本 token）或（对应于固定时间间隔，例如20ms）。这种影响，我个人感觉于当前文本模态占主导地位有关联。目前普遍的结果是：对于小模型（非端到端）而言，对齐数据、使用模型、启发式对齐后的数据输入模型训练能得到更好的模型性能。当然对于现在的趋势大模型（使用预训练模态特征抽取工具的端到端模型）而言，还是使用原始数据比较直接，也不会造成累计误差。

关于bert预训练模型本地应该下载的位置

夹在预训练模型（Bert）的代码对应于 https://github.com/thuiar/MMSA/blob/21456e93b546fa946a4d76a5b23aa4c3873fcacb/src/MMSA/models/subNets/BertTextEncoder.py#L18 如果服务器能连外网的话，直接运行代码（会自动下载相关文件）；如果不能这里要改成存放自己手动下载的预训练模型文件夹的路径；https://huggingface.co/google-bert/bert-base-uncased/tree/main 下载 pytorch_model.bin 和 config.json 放进文件夹即可

关于bert预训练模型本地应该下载的位置

> 感谢您的回答请问是将（pretrained）中的pretrained改成自己的bert的bin和json所在文件夹的绝对路径吗另外如果想要跑中文数据集的话又该如何处理呢是将json文件改成中文版的吗嗯，是的，中文要用在中文数据集上预训练的模型，bin 和 json 都要进行更换

我能在除tfr_net之外的其他模型做"data_missing": true, "deal_missing": true吗

您好，"data_missing": true 对应到处理方法的代码在 data_loader Line 89 行，应该可以对应于不同其他模型进行噪声场景测试，但 "deal_missing" 实际上没有使用（基线模型中也不需要额外进行修改）

Question for Forward lld (gaussian prior) and entropy estimation in MMILB Module

Hi, This code is directly copied from the **official implementation code of the paper** [Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis](https://arxiv.org/pdf/2109.00412.pdf), Please refer to the...

请问是否可以使用自己的数据进行模型训练

您好，当前框架支持使用自己的数据集进行训练，具体做法是在 https://github.com/thuiar/MMSA/blob/21456e93b546fa946a4d76a5b23aa4c3873fcacb/src/MMSA/data_loader.py#L16 中增加对应数据集的初始化函数，类似于其他数据集。如果还有什么具体问题可以继续提问