simon-thu
Results
1
issues of
simon-thu
蒸馏模型
2
我们想通过蒸馏的方式训练一个模型,看到您做过相关的工作: 还有一种简洁高效的思路,就是模型蒸馏,直接蒸大模型的输出就好了,我试过蒸小模型,很有效,很快就能训好。 请问您用的哪个模型作为teacher模型以及蒸馏相关的花费方程如何设置会比较好?