Fanxu Meng

Results 55 comments of Fanxu Meng

Thanks for your attention, We compared the effect of grafting and baseline using mobilenetv2 model on cifar100 dataset, and found that grafting works for both steplr and coslr(The initial learning...

![image](https://user-images.githubusercontent.com/60565778/78501998-5350f800-7791-11ea-877c-629fc2c8dd1f.png)

![image](https://user-images.githubusercontent.com/60565778/77140577-02fd4900-6ab5-11ea-8052-81fae5c14dd7.png) [1.log](https://github.com/fxmeng/filter-grafting/files/4358144/1.log) Thanks for your attention, First, because the learning rate drops every 60 epochs, the final result is not necessarily the best, and the best results often appear after...

文章使用的不是KL散度,而是信息熵。

这部分我们在最终版本的论文中补充了这个实验,结果在GitHub上也进行了展示. 我们一开始实验的时候由于效果比较好也就没有仔细调超参数,后面reviwer也指出我们需要做超参数的ablation study,所以在论文的最终版本补充了这部分实验,结果也在GitHub上进行了展示. 通过这部分实验,我们发现,C=500并不是一个好的超参数,实际上C=1也就是更smooth效果会更好.而A对实验效果的影响是比较大的,他决定了熵值差距较大时,保留本模型的比例,如果完全丢弃(A=1),则效果会比较差,我们使用的0.4看起来还是比较合理的.

补充一些 A和C的作用分别相当于信号的振幅和频率。A代表当一个模型的信息量远大于另一个模型时,信息量小的模型保留的比例。C用来缩放两个模型信息量的大小。 这篇文章我们开始在超参数A和C这块并没有花时间来调,只采用了固定的值(0.4,500),后来发现也不是最好的选择。 后来在CIFAR数据集上补充了这个实验,imagenet由于训练比较慢,没有研究什么样的值比较好。 在这里根据做过的实验和理论来说一下我的想法: 首先A的取值对结果的影响比较大,因为涉及到两个模型极限情况的比例,我们不希望丢掉任意个模型的信息,所以A不能太大。但是如果A太小,起不到给信息量更大的模型更大比例的作用了。我们认为0.2-0.4是比较合理的范围。 C的作用是用来判断两个模型信息量的相对大小,这个参数比较复杂一些。 首先取决于衡量两个模型信息量的标准,比如使用信息熵或者L1norm,得到的信息量规模是不同的。 另外取决于模型每一层滤波器的参数量,比如卷积参数量为(64,64,3,3)的层和(16,16,3,3)计算出来的信息量规模也不同。 而C就是需要把这种信息量的规模缩放到一个合理的范围,这个需要根据你实际的情况来调,甚至每一层应该采用不一样的C。 关于C的建议是,尽量不要让C太大,否则两个模型的比例会集中到两个极值。

你好,请问你有没有使用difflr令两个模型初始化的学习率不同呢?通过不同学习率来增大模型差异性,对两个模型互相蒸馏会有一定的帮助。 发件人: scott 答复: fxmeng/filter-grafting 日期: 2021年3月3日 星期三 下午9:32 收件人: fxmeng/filter-grafting 抄送: Subscribed 主题: [fxmeng/filter-grafting] graft训练mbv2模型没有优化效果 (#17) 你好,非常感谢你的工作,但是我在测试你的方法的时候,始终无法达到你的效果,我验证了不同学习率下mbv2网络在cifar-10上的得分,以及cos学习策略下的得分,和使用graft方法后得分,发现graft算法好像没作用(基础模型是92.1,graft是92.28),请问你知道原因吗?所有设置均按照默认设置 学习方式 学习率 精度 文件夹 lr    0.1 92.10 2 lr      0.1(2) 94.06 5...

请问你在resnet模型上进行实验,效果会有提升吗?

感谢您的问题,我会关注这一现象,并且自己尝试复现一下,看看问题可能出在哪里

您好,我重新跑了学习率分别为:0.01,0.02,0.04,0.06,0.1的baseline,采用每60个epoch下降0.1的方案。 得到的最佳准确率分别为:93.17,94.03,93.89,93.37,92.48。 并使用其中最好的0.02,0.04学习率,做两模型grafting,得到的准确率分别为94.48,94.45,好于baseline的94.03,93.89 因此得到以下结论: 1.mobilenetv2 baseline最佳的学习率并不是广泛使用的0.1.在学习率等于0.02时可以得到更好的效果。 2.采用更好的学习率做grafting是可以超越相应学习率的baseline的。 环境说明: Tesla V100-SXM2 NVIDIA-SMI 418.126.02 Driver Version: 418.126.02 CUDA Version: 10.1 conda version : 4.9.2 conda-build version : 3.20.5 python version : 3.8.5.final.0...