NovemberSun

Results 2 comments of NovemberSun

我后续做了对比实验,在微调阶段batchsize变大会增大模型分类准确率,在自蒸馏阶段batchsize变大会降低准确率,在测试阶段batchsize变化对实验结果无影响?在蒸馏阶段计算分支分类器和“老师分类器”的KL散度也是取的batchmean计算,应该不会有这样的影响呀?不知道您有没有遇到过这个问题

请问这个问题有解决吗?我的实验中self-distilation和主干网络的最后一个epoch结果不变,但是self-distilation过程中第5个epoch到第10个epoch的准确率都不变