Idiom1999
Idiom1999
你的回答让我醍醐灌顶,真的十分感谢!
您好我又遇到了一个问题,DenseDilatedKnnGraph类中返回的张量维度为[2, batch_size, num_points, k]。num_points和k我理解成当前节点与哪k个节点连接,那么2的物理含义是什么呢?
不好意思,我还想请教一下。论文中写道:ViG网络可以通过其内容和语义信息逐步连接节点。 1.请问邻接矩阵是如何初始化的? 2.连接的边具体是如何更新的? 真的不好意思,我是个初学者。可能问题多一点
我看代码里的DeepGCN类中,我使用配置pvig_ti_224_gelu 在定义Grapher类时,您将dilation设置为min(idx//4+1, max_dilation)。 然后我调试了代码,令K=9,发现实际上它找的是18或27个近邻。 请问这样做的用意是什么?也就是说近邻是会改变的吗?
谢谢您的耐心解答。我还是对于初始节点嵌入有点疑惑: 在代码中,输入图片先是进入了Stem类,而Stem类完成的是一个4倍下采样的操作,请问Stem类有什么意义吗? 还有具体的图像切块代码在哪里呢? 真的很抱歉,一直打扰您。
您好,我看到论文中你将ViG用于Mask-RCNN的框架中。但是我看您的代码只公开了用于图像分类任务,如果将ViG用于Mask-RCNN中该如何修改呢?
您好,请问ViG作为主干对小目标的检测或分割的效果好吗。因为我使用ViG作为Mask_RCNN的主干对于小目标的检测和分割的效果都不好。可能是我自己复现出现了问题,所以想问一下。
整体mAP很不好,就不好意思展示了。。。 是因为我代码有问题,我没有使用ViG-S的预训练模型,直接是从0开始训练所以效果不好。 最近在修改代码使能用上预训练模型,十分感谢您的回复。
您好,您的代码真的让我受益匪浅。请问我想实现isotropic ViG应该怎么调整参数呢?我只看到了金字塔结构的Vig。
我想问一下,源码里DeepGCN类中:HW = 224 // 4 * 224// 4的4是不是每个patch的边长为4,然后有HW=3136个patch的意思?