Pretrained-Language-Model icon indicating copy to clipboard operation
Pretrained-Language-Model copied to clipboard

想问下tinybert Task-specific Distillation第一步中间层蒸馏的评价指标

Open wsh2836741 opened this issue 3 years ago • 2 comments

感觉团队杰出的工作。关于Task-specific Distillation第一步中间层蒸馏,比如我是分类任务,由于中间层蒸馏不会训练最后的分类层参数,所以想问下第一步中间层蒸馏的评价指标是什么?还是说不需要关注评价指标,只看loss下降,模型收敛就可以?非常感谢!

wsh2836741 avatar Nov 11 '22 07:11 wsh2836741

在我的理解中loss只会back propagate,前L layer的loss并不会update L+1 layer的weight

charliezjw avatar Nov 15 '22 00:11 charliezjw

@charliezjw 嗯嗯我也是这么理解,所以那么Task-specific Distillation第一步中间层蒸馏训练时是不是不需要关注评价指标,只看loss下降就可以?

wsh2836741 avatar Nov 15 '22 02:11 wsh2836741