Pretrained-Language-Model icon indicating copy to clipboard operation
Pretrained-Language-Model copied to clipboard

为什么在蒸馏prediction layer时,没有考虑样本的hard label?

Open littttttlebird opened this issue 4 years ago • 4 comments

image 在一般蒸馏过程中,会将soft_target以及hard_target都用上,构造两个交叉熵损失,为什么这里只用了soft_target来计算prediction layer的loss(或者说为什么hard_target cross entropy 权重为0)?

littttttlebird avatar Mar 06 '20 07:03 littttttlebird

在task-specific distillation这一过程中,TinyBERT是在原始数据集和大量的增强数据集做的,因为增强数据集没有hard label,所以算法设计的时候我们统一使用了soft label。这与传统的kd有一定的区别~

nlpBeginner avatar Mar 18 '20 03:03 nlpBeginner

在我的蒸馏的实验里,没有使用数据增强,然而加了hard label也并不能带来提升。。。

1024er avatar Mar 25 '20 06:03 1024er

在我的蒸馏的实验里,没有使用数据增强,然而加了hard label也并不能带来提升。。。

事实上,数据增强带来的效果比添加loss更多

Zjq9409 avatar Apr 01 '20 02:04 Zjq9409

在task-specific distillation这一过程中,TinyBERT是在原始数据集和大量的增强数据集做的,因为增强数据集没有hard label,所以算法设计的时候我们统一使用了soft label。这与传统的kd有一定的区别~

那麼想請問在 Table 6 中的 "No Pred" 實驗,底下的註解是說是改採用 hard label 只在 original dataset 上做訓練,表示實際上 "No Pred"實驗也是沒有使用增強數據? 那麼比較一下兩張圖 image 左邊實際上是 "No DA + soft label",右邊的"No Pred"實際上是 "No DA +hard label",而明顯右邊較好,是否代表不做 data augmentation 時使用 hard label表現更好呢?

dav1a1223 avatar Jul 06 '20 06:07 dav1a1223