Pretrained-Language-Model icon indicating copy to clipboard operation
Pretrained-Language-Model copied to clipboard

TinyBERT learning w/o GD

Open xingyueye opened this issue 4 years ago • 1 comments

HI,我注意到TinyBERT论文消融实验部分,TinyBERT不经过GD阶段直接进行蒸馏训练时能够得到还不错的结果,想了解一下其中的一些问题: 1、不经过GD,student网络是scratch的吗? 2、蒸馏的参数设置是怎样的,例如 steps, lr, weight_decay等 3、loss组成中,各部分的权重如何设置,我的初步实验观察到各个loss的大小差距较大

xingyueye avatar Jun 23 '21 08:06 xingyueye

hi, 问题1:是的; 问题2:设置和两步蒸馏是一样的;问题3:权重都是1,我们没有调节权重。

zwjyyc avatar Sep 17 '21 02:09 zwjyyc