Pretrained-Language-Model icon indicating copy to clipboard operation
Pretrained-Language-Model copied to clipboard

Wukong token-wise 交互的模型图文相似性区别度较小?

Open zyx1213271098 opened this issue 2 years ago • 1 comments

作者您好,我用同样的图文输入,试验了一下wukong_vit_b和wukong_vit_b_g两个模型,相似度结果是wukong_vit_b:[0.0855, 0.0848, 0.0854, 0.0881],wukong_vit_b_g:[0.0521, 0.0429, 0.0910, 0.1226],gt是index=3的位置,结果未作softmax。 wukong_vit_b的结果在小数点后3位才能体现出来,而wukong_vit_b_g区分性反而好一些,这样看token-wise好像并没有起到很好的效果。请问,你们那边实验的也是这样的吗?

zyx1213271098 avatar Jul 25 '22 06:07 zyx1213271098

我也遇到这个问题了,请问你解决了吗?

douzi0248 avatar Aug 03 '22 02:08 douzi0248