Pretrained-Language-Model
Pretrained-Language-Model copied to clipboard
为什么在蒸馏prediction layer时,没有考虑样本的hard label?
在一般蒸馏过程中,会将soft_target以及hard_target都用上,构造两个交叉熵损失,为什么这里只用了soft_target来计算prediction layer的loss(或者说为什么hard_target cross entropy 权重为0)?
在task-specific distillation这一过程中,TinyBERT是在原始数据集和大量的增强数据集做的,因为增强数据集没有hard label,所以算法设计的时候我们统一使用了soft label。这与传统的kd有一定的区别~
在我的蒸馏的实验里,没有使用数据增强,然而加了hard label也并不能带来提升。。。
在我的蒸馏的实验里,没有使用数据增强,然而加了hard label也并不能带来提升。。。
事实上,数据增强带来的效果比添加loss更多
在task-specific distillation这一过程中,TinyBERT是在原始数据集和大量的增强数据集做的,因为增强数据集没有hard label,所以算法设计的时候我们统一使用了soft label。这与传统的kd有一定的区别~
那麼想請問在 Table 6 中的 "No Pred" 實驗,底下的註解是說是改採用 hard label 只在 original dataset 上做訓練,表示實際上 "No Pred"實驗也是沒有使用增強數據? 那麼比較一下兩張圖
左邊實際上是 "No DA + soft label",右邊的"No Pred"實際上是 "No DA +hard label",而明顯右邊較好,是否代表不做 data augmentation 時使用 hard label表現更好呢?