Results 7 issues of myzhuang

When I use torchstat to calculate Params and Flops for Vit, some errors happened. After debug I found some ops not supported. class Attention(nn.Module): def forward(self, x): qkv = self.to_qkv(x).chunk(3,...

感谢大佬的分享,帮助很大。目前看代码有几个疑惑。 想问一下wbwtab和wqaq的区别是什么?看不懂名称的缩写。 还有就是wbwtab下的代码和wqaq/iao代码结构比较相似,区别在哪里? 另外,想知道iao是哪一篇文章的方法?能否提供一下想学习。 目前刚刚入门量化很多不懂,希望大佬能解答一下,谢谢!

AdderNet模型量化 请问一下AdderNet模型的int8量化代码是否有打算开源?如果不方便的话,能否说一下 AdderNet and Its Minimalist Hardware Design for Energy-Efficient Artificial Intelligence 量化部分参考的论文/代码? 我们发现模型训练出来的权重范围比ConvNet大比较多,大约-7~6,以往的量化方法使用起来不是那么适合。 谢谢!

您好,我想问一下adder.py 第46行, 为何梯度需要乘上math.sqrt(W_col.size(1)*W_col.size(0))? 此外,后面的“/5”是怎么得到的? 目前我在改FC层为加法网络,想问一下在梯度上是需要做哪些修改?谢谢!

很不错的repo,展示了不同模型优化技术的作用。 最近也是在跑CIFAR10的任务,不过用的是pytorch。 然后我的疑问是resnet系列的准确率是不是偏低一点?理论上resnet系列的准确率应该比VGG16好好一点的。 我这边跑的VGG16 的准确率可以到达93.49%,超过了你展示的resnet结果。我在想是不是resnet全部潜能没有发挥出来? 我的实验设置如下: 结构是官方VGG16,有加BN,Batch大小500,fc加dropout SGD,余弦学习率,lr初始值0.1,半衰周期1200,最小学习率0.001。 权重衰减5e-4 输入图像padding再随机裁剪4像素,没有做白化。加水平镜像翻转

你好!我想问一下txt文件是怎么写入的?比如我用的是tensorflow的参数文件,一个卷积层的结构是(kernel,kernel, inputmap,outputmap),这四个维度应该按什么顺序写入txt?看了前面说按照reshape不行啊

您好!想问一下百度云里面mobilenetv1_weight.pth权重是来自于哪里?是不是基于imagenet的预训练模型?能否提供一下原先的该模型的imagenet的训练地址?拜托了。我一直在pytorch或者torchvision代码中找不到mobilenetv1的预训练pth文件,只有v2v3的,很奇怪。