Chinese-CLIP icon indicating copy to clipboard operation
Chinese-CLIP copied to clipboard

文到图的检索中,如何分辨完全不匹配的图片

Open istoneyou opened this issue 2 years ago • 5 comments

通过余弦相似来计算图片和文字的相似度,当图库中完全不存在匹配的照片时,无法过滤掉不匹配的图片

istoneyou avatar Jul 10 '23 03:07 istoneyou

您好,您可以采用未softmax归一化的余弦相似度,来进行一道阈值筛选哈。这个阈值可以根据一定的case实测来估计,如0.3这样。

yangapku avatar Jul 10 '23 12:07 yangapku

您好,您可以采用未softmax归一化的余弦相似度,来进行一道阈值筛选哈。这个阈值可以根据一定的case实测来估计,如0.3这样。

您好,谢谢您的答复。我采用未softmax归一化的余弦相似度来进行阈值筛选,发现这个阈值不好筛选。下图中,除了斑马,其它类别在我的图库里都不存在,但是计算出来的余弦相似度也很高。比如搜狮子,排名靠前的是一些其它动物的图片。 image

istoneyou avatar Jul 11 '23 03:07 istoneyou

看上去您这里的相似度整体上都是比较高的水平,单纯从这个截图看,可能要卡下0.55甚至更高了。请问换用我们更大规模的模型,也难以区分吗?

yangapku avatar Jul 17 '23 07:07 yangapku

您好,下图是我用vit-H-14模型运行的结果,其中斑马、蓝色交通工具,小女孩是在图库中真实存在的,其它几类是不存在的。斑马和蓝色交通工具的线看上去可以用某个阈值区分,但是小女孩这个搜索就不是很合适用同一个阈值来划分。从更多的数据看,感觉很难找到一条阈值线来区分匹配和完全匹配。 ViT-H-14

istoneyou avatar Jul 17 '23 07:07 istoneyou

您好,下图是我用vit-H-14模型运行的结果,其中斑马、蓝色交通工具,小女孩是在图库中真实存在的,其它几类是不存在的。斑马和蓝色交通工具的线看上去可以用某个阈值区分,但是小女孩这个搜索就不是很合适用同一个阈值来划分。从更多的数据看,感觉很难找到一条阈值线来区分匹配和完全匹配。 ViT-H-14

我这里也出现不匹配的情况,很多模糊或黑场的画面会被检索出来而且得分靠前,我想通过finetuning对这些图片标注,但是感觉没有效果,而且从前正确的图片感觉精确度也会下降。

skyantao avatar Jul 19 '23 06:07 skyantao