Pretrained-Language-Model TinyBERT learning w/o GD

TinyBERT learning w/o GD

Open xingyueye opened this issue 4 years ago • 1 comments

HI，我注意到TinyBERT论文消融实验部分，TinyBERT不经过GD阶段直接进行蒸馏训练时能够得到还不错的结果，想了解一下其中的一些问题： 1、不经过GD，student网络是scratch的吗？ 2、蒸馏的参数设置是怎样的，例如 steps, lr, weight_decay等 3、loss组成中，各部分的权重如何设置，我的初步实验观察到各个loss的大小差距较大

Jun 23 '21 08:06 xingyueye

hi，问题1：是的；问题2：设置和两步蒸馏是一样的；问题3：权重都是1，我们没有调节权重。

Sep 17 '21 02:09 zwjyyc

Pretrained-Language-Model Pretrained-Language-Model copied to clipboard

TinyBERT learning w/o GD

Pretrained-Language-Model
Pretrained-Language-Model copied to clipboard