Heming Xia

Results 3 issues of Heming Xia

This PR adds the paper "Lossless Speedup of Autoregressive Translation with Generalized Aggressive Decoding" (https://arxiv.org/abs/2203.16487)

Hello, thanks very much for your work! I notice that after running the code, the visual attention weights of different words in the same sentence are very close, for example,...

您好,非常感谢您的工作! 我注意到您在计算label_sim_dict时使用了Softmax,与one-hot相加后又使用了一次Softmax。 重复的Softmax会在很大程度上削弱数据的敏感性。 因此,我进行了以下实验,以探究LCM的效果: 在20NG数据集上,我将batch size设为512,alpha设为0.5,其余参数跟您相同, 我发现,将lcm的作用对象从最后一层dense layer之前的input_vec,换到dense layer之后还没过Softmax的pred_score上,结果相比于lcm有两个点的提升。 进一步,我尝试了不使用lcm,用ground truth index直接从label embedding layer取embedding,softmax之后作为label_sim_dict,发现与上述效果相当。 进一步探究之后我发现,这一效果其实等同于将label smoothing设为e=0.9。 在LS上进行实验,效果也与上述情况相当。这样的话,label index位置相对于其他位置差异变小,拟合速度增快,且效果优于lcm。 ———————————————————————————————————————— 基于上述原因,我想请问,您有试过将lcm和label smoothing更大的情况进行对比吗?论文中得到的结果是因为LCM捕捉到了label之间的关系,还是仅仅相当于设置了更大的label smoothing呢? 仅仅是一些粗浅的意见,希望对您有帮助~😊