item-alignment
item-alignment copied to clipboard
预训练的数据格式问题
请问就 ViT模块来说,输入的数据格式应该是怎样的呀?能辛苦给具体举个例子嘛,感激~
ViT的输入就是一张图片,会转换成patch之后输入到transformer,最终通过pooling得到这张图片的向量化表示。当然电商的图片无效信息比较多,一般是需要做目标检测的预处理,把相关物品提取出来,再作为ViT的输入
需要对比2张图片是否相似的话,就计算这2张图片的向量相似度作为度量