Ziqi Yuan

Results 42 comments of Ziqi Yuan

对于Q-1:我目前不太能通过提供的信息判断是什么原因。 对于 Q-2 : 我能通过修改[MMSA/src/MMSA/data_loader.py]直接对抽取出来的特征进行训练吗,特征的抽取方式和维度是否会对代码运行有影响, 这个问题,一般来说抽出的特征需要做一下归一化(否则训练会不收敛),其他MMSA框架是完全支持的。

@ziruiqin Q1. 文本模态为什么用bert模型处理后,是将每个单词表示为768个特征的向量而不是将一个句子表示 A1. 因为文本序列要进行后续的融合,而非先得到文本的向量表示进行“后期”融合; Q2. 还有你们的文本处理过后的数据第二维是39,意思是指你们将所有句子通过padding使得单词数量变为39吗? A2. 是的,还有截断操作,用的是3sigma原则 选择的长度39. Q3. 同理,音频和视频模态的第二维是不是也是时间步长呢?可以告知一下音频模态的400时间步长是指采样频率为400HZ吗?视频上论文写得采样频率是30HZ,但是时间步长是55,这也是padding的结果是吧? A3. 音频和视频模态的第二维是时间步长。您可能混淆了采样频率(特征数 per second),时间步长(总特征时间步)的概念。如果您用的是aligned 数据最后时间步长都是进过补齐/截断操作的

@linhan0109 训练的时候都是按照回归任务训练,测试的时候可以把回归任务(的结果)转化为分类任务,从而提供分类指标

你好,仓库里面所有模型都是在相同环境下复现的结果(肯定是与原论文结果有一定差异)。 关于 tetfn 模型由于本身论文的仓库并没有开源,提供的复现模型效果仅供参考,如果模型结构与原论文有差异,可以直接issue我们或者pull request。 关于 cenet 模型,我们与原论文在使用的特征层上有差异(Feature transformation strategy 在集成的方法中没有采用,这种方法事实上可以加到任何方法上,为了公平对比,本仓库没有使用,但我们认为并不是主要影响),文本模态编码方式我们是用了bert(可能为主要原因,参考原论文中,mag-bert和mag-sentiLARE对比)。 如果同学认为能纠正、调试等手段改进复现效果。欢迎 issue / pull request 🙏

@hustcselwb 应该必须来自一个epoch下,否则会有筛选数据的嫌疑。

Hi, that is a mistake that doesn't matter the training process. In fact, the args.seq_lens is calculated in load_data.py dynamically.

您好,SIMS 数据集的配置参数如下: ![](https://github.com/thuiar/MMSA-FET/assets/46373350/27d0dec0-4536-4939-aa66-ce879cf469c0) ![](https://github.com/thuiar/MMSA-FET/assets/46373350/22c8ff17-dc93-4e87-8a52-9578a9bc410b)

@TheShy-Dream 这个是1.0数据集(CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality)中采用的特征抽取参数设置,在后续的工作中,我们推出了2.0数据集(Make acoustic and visual cues matter: CH-SIMS v2. 0 dataset and AV-Mixup consistent module),为了统一两者,我们在后续的研究中,采用了本帖中的特征抽取方式,与1.0原作中的特征抽取方式有所不同

https://github.com/thuiar/ch-sims-v2/blob/6eb09e5e9d17355cec436c59f4d3fdb41f3b5891/data/load_data.py#L40 train_mix is an augmentation from the original train set. Using the following operations.