0+x comments

Results 6 comments of

0+x

> > 问题主要在transfomer_cosine.TransformerEncoderLayer.forward_post和forward_pre这两个方法中。 `def forward_post(self,src, shape,...` `def forward_pre(self,src, shape,..` 其中默认了参数src的第二维为1（使用的是`torch.squeeze(src, dim=1)`，将为1的维度压缩了），导致后面的consistent_feature计算时，`consistent_feature = torch.matmul(mask, feature)`，mask形状为(256, 256)，而feature的形状在batch>1时为(256, batch, 512)，两者进行叉乘则会出现错误。虽然可以将suqeeze函数改成flatten，feature计算编程`feature = torch.flatten(src, 1)`，这样就可以处理batch>1的输入了，但是不太清楚这样处理是否符合作者原本的设计，这个操作我还不是很熟悉。 > > 您好这么修改会导致精度下降吗我个人觉得这样不符合原论文的目标。直接flatten展平的操作，虽然可以使得运算正常，但是含义却发生了变化。原因在于作者在计算mask的时候，consistent_mask = torch.sum(local_att_mask, dim=0)，在注意力头的维度上进行了累加，得到多头的注意力mask，然鹅这个mask是基于1个bs的，这样累加才与后边的feature =...

0+x

你好，代码似乎只用了L2 Loss没有用SSIM？

BS不能修改呀

求求可学区域注意力的batchsize>1的版本实现

求求可学区域注意力的batchsize>1的版本实现

it will be appricated if the training code is completed!

关于训练和推理的区别以及推理人数的问题