放出来的vitae-rsva-dota权重可能有错
@WenLinLliu 我建议你把这两种bias打出来,看看哪个是None
@WenLinLliu 我建议你把这两种bias打出来,看看哪个是None
都不是None
@WenLinLliu 你提到的是qk部分,那应该是跟ViTAE没啥关系,是注意力部分,在这个仓库的issues里,有人成功复现了ViT-B+RVSA
https://github.com/ViTAE-Transformer/Remote-Sensing-RVSA/issues/19
你看看这个权重是不是也是这样的
另外,最近我们拿同样的结构,跑了一个多任务预训练,你也可以试试那里的权重,看看有没有相同的现象
https://github.com/ViTAE-Transformer/MTP
如果这俩没有问题,那就说明一件事,我当时训完模型以后,不知道什么时候把bias这块改了一下,可能为了让代码长的都一样?你看看代码有没有什么注释掉的地方,能不能恢复回去,总之这个东西的时间太久了,原来训得权重早都找不到了,留下来的权重就是github上传的这些
@WenLinLliu 你提到的是qk部分,那应该是跟ViTAE没啥关系,是注意力部分,在这个仓库的issues里,有人成功复现了ViT-B+RVSA
#19
你看看这个权重是不是也是这样的
另外,最近我们拿同样的结构,跑了一个多任务预训练,你也可以试试那里的权重,看看有没有相同的现象
https://github.com/ViTAE-Transformer/MTP
如果这俩没有问题,那就说明一件事,我当时训完模型以后,不知道什么时候把bias这块改了一下,可能为了让代码长的都一样?你看看代码有没有什么注释掉的地方,能不能恢复回去,总之这个东西的时间太久了,原来训得权重早都找不到了,留下来的权重就是github上传的这些
感谢回复
@DotWang 一般attention里面用的qkv_bias,这里把q_bias和v_bias分开是什么用意
@DotWang 这么做好像是为了让k没有bias,这份代码网络骨干是ViTAE-VitDet的代码,然后注意力是基于VSA代码上改的,我把两份代码拼了起来,不过我觉得性能上没啥区别,所以用的时候就比较随意了,可能混用什么的