Chinese-CLIP 为什么使用同样的词和图片得到的结果不一致？

为什么使用同样的词和图片得到的结果不一致？

Open learning233 opened this issue 10 months ago • 2 comments

词：天空, 栏杆, 女人, 火车站, 火车, 人们图片地址：https://images.pexels.com/photos/20147042/pexels-photo-20147042.jpeg?cs=srgb&dl=pexels-mateus-castro-20147042.jpg&fm=jpg

测试api： https://huggingface.co/spaces/OFA-Sys/chinese-clip-zero-shot-image-classification 使用的base https://huggingface.co/OFA-Sys/chinese-clip-vit-base-patch16

本地跑和上面俩API，这三个结果都不一样。本地：[('栏杆', 0.507383406162262), ('女人', 0.44152918457984924), ('人们', 0.02036505565047264), ('天空', 0.019294271245598793), ('火车站', 0.010599039494991302), ('火车', 0.0008290574769489467)]

Apr 13 '24 09:04 learning233

@learning233 @JianxinMa @yangapku @jxst539246 @manymuch

Jun 17 '24 07:06 ingale726

@learning233 @JianxinMa @yangapku @jxst539246 @manymuch

本地预测的时候，不要进行梯度计算，用with torch.no_grad()

model.eval()  # 这行代码保证每次结果一致
with torch.no_grad():
    # 进行推断操作的代码
    output = model(input)

Jun 24 '24 11:06 ChesonHuang

Chinese-CLIP Chinese-CLIP copied to clipboard

为什么使用同样的词和图片得到的结果不一致？

Chinese-CLIP
Chinese-CLIP copied to clipboard