Lusheng Zhang
Results
6
comments of
Lusheng Zhang
请问bert是在什么代码下测试的
是的,代码里分类层没加mask是个bug,我修复一下,谢谢~
可能老师模型的训练输出prob不够极端,可以多训练几个Epoch再看看?
我的测试机器是8核机器,我记得跑满CPU负载是400%+,可能和核数有关系
因为蒸馏阶段本质是 学生学习老师的输出,那么可以是任何数据输入老师模型得到学生的学习目标。为了蒸馏效率,推荐使用和任务相关的数据(如待标注数据)来保持类别的均衡性,默认的script_train_stage1.sh直接使用了训练数据。
非常关注这里,deepspeed训练中断问题是最最最最最老大难的问题了。。。。