LogiRE icon indicating copy to clipboard operation
LogiRE copied to clipboard

求教DWIE数据集上的训练问题

Open FDUyjx opened this issue 3 years ago • 2 comments

您好!

我对您关于DWIE数据集的处理工作十分感兴趣,但有个问题是关于在DWIE上训练,loss总是会出现NAN的情况,调整学习率等方法也没用,请问你们训练过程中有遇到吗,是怎么解决的呢?

期待您的回复,非常感谢!

祝好!

FDUyjx avatar Nov 26 '21 09:11 FDUyjx

您好,感谢关注!

之前没有遇到过类似的情况,我又重新检查了一下 backbone 训练过程,是可以正常训练的,请检查一下以下几个方面吧:

  1. 我在上传预处理脚本的同时,有给出处理后文件的 md5sum 哈希值,请比照一下确保数据相同
  2. 请查看一下 DocRED 的数据在您的模型上是否可以正常训练
  3. 如果以上两点都没问题的话,也许可以从 loss 开始向前溯因,检查一下哪一步计算最先出现了 NAN

希望可以帮到您,欢迎继续联系!

祝好!

rudongyu avatar Nov 27 '21 04:11 rudongyu

您好,感谢关注!

之前没有遇到过类似的情况,我又重新检查了一下 backbone 训练过程,是可以正常训练的,请检查一下以下几个方面吧:

  1. 我在上传预处理脚本的同时,有给出处理后文件的 md5sum 哈希值,请比照一下确保数据相同
  2. 请查看一下 DocRED 的数据在您的模型上是否可以正常训练
  3. 如果以上两点都没问题的话,也许可以从 loss 开始向前溯因,检查一下哪一步计算最先出现了 NAN

希望可以帮到您,欢迎继续联系!

祝好!

十分感谢!问题已解决,原来是因为DWIE数据集里面有空label的情况,导致分母除0了。Good Work!

FDUyjx avatar Nov 27 '21 04:11 FDUyjx