item-alignment icon indicating copy to clipboard operation
item-alignment copied to clipboard

预训练的数据格式问题

Open Wheat12345 opened this issue 1 year ago • 1 comments

请问就 ViT模块来说,输入的数据格式应该是怎样的呀?能辛苦给具体举个例子嘛,感激~

Wheat12345 avatar Jan 13 '24 08:01 Wheat12345

ViT的输入就是一张图片,会转换成patch之后输入到transformer,最终通过pooling得到这张图片的向量化表示。当然电商的图片无效信息比较多,一般是需要做目标检测的预处理,把相关物品提取出来,再作为ViT的输入

需要对比2张图片是否相似的话,就计算这2张图片的向量相似度作为度量

sunzeyeah avatar Jan 15 '24 09:01 sunzeyeah