Chinese-CLIP
Chinese-CLIP copied to clipboard
为什么使用同样的词和图片得到的结果不一致?
词:天空, 栏杆, 女人, 火车站, 火车, 人们 图片地址:https://images.pexels.com/photos/20147042/pexels-photo-20147042.jpeg?cs=srgb&dl=pexels-mateus-castro-20147042.jpg&fm=jpg
测试api: https://huggingface.co/spaces/OFA-Sys/chinese-clip-zero-shot-image-classification 使用的base https://huggingface.co/OFA-Sys/chinese-clip-vit-base-patch16
本地跑和上面俩API,这三个结果都不一样。
本地:[('栏杆', 0.507383406162262), ('女人', 0.44152918457984924), ('人们', 0.02036505565047264), ('天空', 0.019294271245598793), ('火车站', 0.010599039494991302), ('火车', 0.0008290574769489467)]
@learning233 @JianxinMa @yangapku @jxst539246 @manymuch
@learning233 @JianxinMa @yangapku @jxst539246 @manymuch
本地预测的时候,不要进行梯度计算,用with torch.no_grad()
model.eval() # 这行代码保证每次结果一致
with torch.no_grad():
# 进行推断操作的代码
output = model(input)