Chinese-CLIP 文到图的检索中，如何分辨完全不匹配的图片

通过余弦相似来计算图片和文字的相似度，当图库中完全不存在匹配的照片时，无法过滤掉不匹配的图片

Jul 10 '23 03:07 istoneyou

您好，您可以采用未softmax归一化的余弦相似度，来进行一道阈值筛选哈。这个阈值可以根据一定的case实测来估计，如0.3这样。

Jul 10 '23 12:07 yangapku

您好，您可以采用未softmax归一化的余弦相似度，来进行一道阈值筛选哈。这个阈值可以根据一定的case实测来估计，如0.3这样。

您好，谢谢您的答复。我采用未softmax归一化的余弦相似度来进行阈值筛选，发现这个阈值不好筛选。下图中，除了斑马，其它类别在我的图库里都不存在，但是计算出来的余弦相似度也很高。比如搜狮子，排名靠前的是一些其它动物的图片。

Jul 11 '23 03:07 istoneyou

看上去您这里的相似度整体上都是比较高的水平，单纯从这个截图看，可能要卡下0.55甚至更高了。请问换用我们更大规模的模型，也难以区分吗？

Jul 17 '23 07:07 yangapku

您好，下图是我用vit-H-14模型运行的结果，其中斑马、蓝色交通工具，小女孩是在图库中真实存在的，其它几类是不存在的。斑马和蓝色交通工具的线看上去可以用某个阈值区分，但是小女孩这个搜索就不是很合适用同一个阈值来划分。从更多的数据看，感觉很难找到一条阈值线来区分匹配和完全匹配。 ViT-H-14

Jul 17 '23 07:07 istoneyou

您好，下图是我用vit-H-14模型运行的结果，其中斑马、蓝色交通工具，小女孩是在图库中真实存在的，其它几类是不存在的。斑马和蓝色交通工具的线看上去可以用某个阈值区分，但是小女孩这个搜索就不是很合适用同一个阈值来划分。从更多的数据看，感觉很难找到一条阈值线来区分匹配和完全匹配。

我这里也出现不匹配的情况，很多模糊或黑场的画面会被检索出来而且得分靠前，我想通过finetuning对这些图片标注，但是感觉没有效果，而且从前正确的图片感觉精确度也会下降。

Jul 19 '23 06:07 skyantao