Visformer icon indicating copy to clipboard operation
Visformer copied to clipboard

step-wise patch embedding的实现

Open LindgeW opened this issue 1 year ago • 2 comments

你好,请问论文中所说的step-wise patch embedding的实现具体体现在哪里呢?是通过不同stage设置不同patch size的patch embedding来体现的吗?

LindgeW avatar Jun 17 '23 10:06 LindgeW

你好,是这样的,step-wise patch embedding就是每一步做embedding时只做尺度为2x2大小的patch embedding,具体就是每次使用步长为2,卷积核大小为2的卷积,类似于CNN中的下采样层,同时通道数加倍。结果就是原来8x8的patch embedding被多个2x2的patch embedding替代。

danczs avatar Jun 18 '23 09:06 danczs

多谢回复!

请问一般overlapping的cnn stem更好,还是(你们的)non-overlapping的更好呢?

LindgeW avatar Jun 22 '23 07:06 LindgeW