Bati Meng

Results 6 comments of Bati Meng

@xfcygaocan 同问,这里的源码predict函数, 并没有在预测时候用到aspects

其实不会重复下载模型,但是每次都要重复下载md5做本地校验,对于我们挂proxy的也异常难受...

您好,这个结果是logits,未做softmax吧,如果想根据logits计算图文相似度,建议follow CLIP工作的方式,* temperature parameter以后再softmax: logits = (100 * image_features @ text_features.T).softmax(dim=-1)

ILSVRC 2012: [link](https://www.image-net.org/challenges/LSVRC/)

您指的是Wukong-ViT-L吗?我们在paper有验证过性能。您看一下加载的config是否则正确? 另外,Wukong-ViT-L采用的是细粒度对齐的训练,inference的时候每个patch和token都会参与计算,不是像CLIP一样只使用[CLS]作为图像和文本的global表征。

我们同时翻译了下游任务的英文标签到中文,在主页上公开了下游数据的中文版本(https://wukong-dataset.github.io/wukong-dataset/index.html) As mentioned in the paper, we also provide various benchmarking datasets with human-verified image-text pairs and Chinese labels for model benchmarks.