Scott-Mao
Scott-Mao
你好,我初始学习率设置为0.1,训练精度为92.45(单模型训练);初始学习率为0.05时候,训练精度为94.35(单模型训练);但是使用graft算法,让两个模型进行相互学习的时候(学习率0.1和0.05两个模型通过grafting训练),精度就只有92.57,还没有单个网络自己学习的分高,我很疑惑为什么使用graft算法之后的精度会更低
我们还测试了调节幅值参数a和c对graft算法性能的提升,目前实验结果均无明显改善;同时,我们还测试了graft只融合conv和融合conv与bn对性能的影响,发现改善也不是很明显(精度分别为92.57与92.55)
 您的实验中,初始学习率都设置为0.1(只保证数据导入顺序不一样),使用graft的mbv2精度还能提升1个点,但是我们始终无法达到你的效果;而dlr增加模型多样性后,您的得分提升2个点,而我们单纯调节学习率模型精度也达到了94.35,比您graft融合之后的精度还要高,好像graft并没有让子网络学习的更好,反而让性能更好的子网络精度更差,我很疑惑,希望得到你的帮助,感谢.
还未在resnet上进行测试,待测试后,再反馈给你.解决目前我们都无法重现您的结果(我们参数和您的一模一样),请问你怀疑可能是什么问题,感谢您的帮助!
你好,非常感谢你的回复,我会在我们电脑上复现你的结果.但是,有一点我还是比较疑惑,按论文中初始学习率0.1,每60epoch衰减0.1,最后MBV2提升将近1个点(92.42->93.53),但是我们测试完全无法复现(和我们上述做的实验结果一样,相同0.1学习率情况下,多次测试rafting精度完全无法超过93,基本都在92.5-92.6之间),是还有其他需要注意的事项吗? 