Pretrained-Language-Model
Pretrained-Language-Model copied to clipboard
TinyBERT learning w/o GD
HI,我注意到TinyBERT论文消融实验部分,TinyBERT不经过GD阶段直接进行蒸馏训练时能够得到还不错的结果,想了解一下其中的一些问题: 1、不经过GD,student网络是scratch的吗? 2、蒸馏的参数设置是怎样的,例如 steps, lr, weight_decay等 3、loss组成中,各部分的权重如何设置,我的初步实验观察到各个loss的大小差距较大
hi, 问题1:是的; 问题2:设置和两步蒸馏是一样的;问题3:权重都是1,我们没有调节权重。