预训练的数据格式问题

Open Wheat12345 opened this issue 1 year ago • 1 comments

请问就 ViT模块来说，输入的数据格式应该是怎样的呀？能辛苦给具体举个例子嘛，感激～

Jan 13 '24 08:01 Wheat12345

ViT的输入就是一张图片，会转换成patch之后输入到transformer，最终通过pooling得到这张图片的向量化表示。当然电商的图片无效信息比较多，一般是需要做目标检测的预处理，把相关物品提取出来，再作为ViT的输入

需要对比2张图片是否相似的话，就计算这2张图片的向量相似度作为度量

Jan 15 '24 09:01 sunzeyeah