Visformer
Visformer copied to clipboard
step-wise patch embedding的实现
你好,请问论文中所说的step-wise patch embedding的实现具体体现在哪里呢?是通过不同stage设置不同patch size的patch embedding来体现的吗?
你好,是这样的,step-wise patch embedding就是每一步做embedding时只做尺度为2x2大小的patch embedding,具体就是每次使用步长为2,卷积核大小为2的卷积,类似于CNN中的下采样层,同时通道数加倍。结果就是原来8x8的patch embedding被多个2x2的patch embedding替代。
多谢回复!
请问一般overlapping的cnn stem更好,还是(你们的)non-overlapping的更好呢?