Lusheng Zhang

Results 6 comments of Lusheng Zhang

请问bert是在什么代码下测试的

是的,代码里分类层没加mask是个bug,我修复一下,谢谢~

可能老师模型的训练输出prob不够极端,可以多训练几个Epoch再看看?

我的测试机器是8核机器,我记得跑满CPU负载是400%+,可能和核数有关系

因为蒸馏阶段本质是 学生学习老师的输出,那么可以是任何数据输入老师模型得到学生的学习目标。为了蒸馏效率,推荐使用和任务相关的数据(如待标注数据)来保持类别的均衡性,默认的script_train_stage1.sh直接使用了训练数据。

非常关注这里,deepspeed训练中断问题是最最最最最老大难的问题了。。。。