Allen Chen

Results 2 issues of Allen Chen

你好,我在复现论文效果时遇到两个问题,请教一下。 1. 当我训练子分类器时,得到的效果没有直接用true label训练效果好; 2. 最终推理时,我在CPU上得到了11x的速度提升,但是GPU上只有2x。 下面是我分享复现时的细节,并非全部与所问问题相关: - 我用的是中文二分类数据集,40w作为训练集,3w作为测试集,后面的效果都是在测试集上得出的; - teacher分类器和student分类器都是按照论文中的设置,包括降维后的维度128; - 我用的loss是hinton蒸馏论文中的经典公式,temperature设置为1; ps: 我有试过在较浅的层使用较大的temperature来保证论文中Uncertainty是递减的,但是训练效果不太理想就放弃了; - 按照论文,真个训练过程分为2步: 1. 训练主干网络和teacher分类器的参数,使用交叉熵作loss; 2. 固定主干网络和teacher分类器上的参数,训练子分类器的参数; - 训练结果主干网络和原来的模型效果一致(acc 96%);第一层子分类器下降4%的acc(92%);每一层的acc从前到后,整体呈现上升趋势; - 推理时我将12层分别切成一个小模型,将上一层的输出当作下一层的输入; 以此来保证整体的计算量没有上升;表一为具体切分规则。 - 推理时,speed选择为0.2,模型效果几乎没有下降(acc 0.1个百分点);speed=0.5的时候效果下降明显,(acc...

在Device limited route设置下,每个token最多对应了不同的M个设备,因此理论上需要的通讯量确实减少了。 但是,按照Megatron中MoE的2种通讯实现,不管是all gather还是all to all,实际上的通讯组都是完整的EP group,所以我理解通讯量并没有减少。 请问你们在工程侧是如何实现从而能让这种策略减少实际的通讯量的?