Text4Vis
Text4Vis copied to clipboard
关于多模态融合以及结果复现问题
作者您好,看了您的论文深受启发,觉得您写的很好,有两个问题想咨询您。 1、我已经成功复现了代码,预训练模型使用的vit-l-14,两张4090显卡跑的结果是:top1: 95.3%\top5: 99.2%,跟您的结果可能还有差距。 2、关于视觉特征和文本特征融合时,您采用了CLIP模型默认的余弦相似度计算,但我不太理解这个代码思路,看CLIP原论文伪代码好像不是这样,恳请您解答一下这个logit_scale 是干啥的,有什么用,为什么要这样初始化logit_scale 。 self.logit_scale = nn.Parameter(torch.ones([]) * np.log(1 / 0.07)) logit_scale = self.logit_scale.exp() logits = logit_scale * image_emb @ text_emb.t()
感谢对我们工作的兴趣。
- 不清楚您指的是什么数据集上的结果?
- 关于logit_scale请参考CLIP官方代码https://github.com/openai/CLIP/blob/a1d071733d7111c9c014f024669f959182114e33/clip/model.py#L295
我是在ucf101数据集上复现的