Pretrained-Language-Model 为什么在蒸馏prediction layer时，没有考虑样本的hard label？

为什么在蒸馏prediction layer时，没有考虑样本的hard label？

Open littttttlebird opened this issue 4 years ago • 4 comments

在一般蒸馏过程中，会将soft_target以及hard_target都用上，构造两个交叉熵损失，为什么这里只用了soft_target来计算prediction layer的loss（或者说为什么hard_target cross entropy 权重为0）？

Mar 06 '20 07:03 littttttlebird

在task-specific distillation这一过程中，TinyBERT是在原始数据集和大量的增强数据集做的，因为增强数据集没有hard label，所以算法设计的时候我们统一使用了soft label。这与传统的kd有一定的区别~

Mar 18 '20 03:03 nlpBeginner

在我的蒸馏的实验里，没有使用数据增强，然而加了hard label也并不能带来提升。。。

Mar 25 '20 06:03 1024er

在我的蒸馏的实验里，没有使用数据增强，然而加了hard label也并不能带来提升。。。

事实上，数据增强带来的效果比添加loss更多

Apr 01 '20 02:04 Zjq9409

在task-specific distillation这一过程中，TinyBERT是在原始数据集和大量的增强数据集做的，因为增强数据集没有hard label，所以算法设计的时候我们统一使用了soft label。这与传统的kd有一定的区别~

那麼想請問在 Table 6 中的 "No Pred" 實驗，底下的註解是說是改採用 hard label 只在 original dataset 上做訓練，表示實際上 "No Pred"實驗也是沒有使用增強數據? 那麼比較一下兩張圖左邊實際上是 "No DA + soft label"，右邊的"No Pred"實際上是 "No DA +hard label"，而明顯右邊較好，是否代表不做 data augmentation 時使用 hard label表現更好呢?

Jul 06 '20 06:07 dav1a1223

Pretrained-Language-Model Pretrained-Language-Model copied to clipboard

为什么在蒸馏prediction layer时，没有考虑样本的hard label？

Pretrained-Language-Model
Pretrained-Language-Model copied to clipboard