label_confusion_learning icon indicating copy to clipboard operation
label_confusion_learning copied to clipboard

关于LCM论文效果的一点疑问

Open hemingkx opened this issue 4 years ago • 7 comments

您好,非常感谢您的工作! 我注意到您在计算label_sim_dict时使用了Softmax,与one-hot相加后又使用了一次Softmax。 重复的Softmax会在很大程度上削弱数据的敏感性。

因此,我进行了以下实验,以探究LCM的效果: 在20NG数据集上,我将batch size设为512,alpha设为0.5,其余参数跟您相同, 我发现,将lcm的作用对象从最后一层dense layer之前的input_vec,换到dense layer之后还没过Softmax的pred_score上,结果相比于lcm有两个点的提升。 进一步,我尝试了不使用lcm,用ground truth index直接从label embedding layer取embedding,softmax之后作为label_sim_dict,发现与上述效果相当。 进一步探究之后我发现,这一效果其实等同于将label smoothing设为e=0.9。 在LS上进行实验,效果也与上述情况相当。这样的话,label index位置相对于其他位置差异变小,拟合速度增快,且效果优于lcm。

———————————————————————————————————————— 基于上述原因,我想请问,您有试过将lcm和label smoothing更大的情况进行对比吗?论文中得到的结果是因为LCM捕捉到了label之间的关系,还是仅仅相当于设置了更大的label smoothing呢?

仅仅是一些粗浅的意见,希望对您有帮助~😊

hemingkx avatar Mar 23 '21 13:03 hemingkx

感谢您认真的阅读和细致的研究!最近由于我在忙着做另一个研究,所以一直没有时间看issue,你提的这个问题确实值得思考,在实验方面,我确实没有尝试使用0.9这么大的smoothing,而是采用了其他工作中常见的设置。我会抽空对你提到的这些实验/设置进行探究,期待后面跟您的进一步探讨!

beyondguo avatar Mar 26 '21 15:03 beyondguo

好的,期待您的进一步回复~🤝

hemingkx avatar Mar 27 '21 01:03 hemingkx

@hemingkx 请教一下 您可以复现LCM在 20NG这个数据集上的效果吗 基于bert的实验~

chosenone75 avatar May 31 '21 06:05 chosenone75

@hemingkx 请教一下 您可以复现LCM在 20NG这个数据集上的效果吗 基于bert的实验~

没有,我们提出这个issue之后,就放弃这个任务了,欢迎讨论👏~

hemingkx avatar May 31 '21 06:05 hemingkx

@hemingkx 请教一下 您可以复现LCM在 20NG这个数据集上的效果吗 基于bert的实验~

没有,我们提出这个issue之后,就放弃这个任务了,欢迎讨论👏~

我这边使用开源的代码实际的效果在82左右 且不同的seed 波动会比较大

chosenone75 avatar May 31 '21 07:05 chosenone75

您好,对代码不理解,LCM是如何进行梯度传播的,它的损失函数是如何定义的吗,有没有torch版本的代码?谢谢了。

nicoyang-21 avatar Oct 21 '22 01:10 nicoyang-21