multi-source-pointer-network icon indicating copy to clipboard operation
multi-source-pointer-network copied to clipboard

真实数据训练情况

Open rxc205 opened this issue 2 years ago • 3 comments

你好,请问能够给出使用论文中的数据集训练的参考结果吗?比如loss、blue值、epoch等。我使用论文的数据集训练了10个epoch但是似没有收敛,Loss在3.2左右波动,产生了很多[['Zara', '#PAD#', '#PAD#'], ['衬衫', '牛仔', '#PAD#'], ['衬衫', '#PAD#', '#PAD#']],这样的p#PAD#值,烦请解答,谢谢!

rxc205 avatar Nov 29 '22 02:11 rxc205

========== Epoch Summary ==========
  Epoch: 2 Finished.
  Train Mean Loss: 3.14693
  Valid Mean Loss: 3.25586
  Valid Mean BLEU: 0.03345
  Train Data Size: 242351
  Valid Data Size: 30487
  Epoch Time Consumed: 187.2s
  Valid Time Consumed: 31.68s
  Total Time Consumed: 573.0s
  Current Learning Rate: 0.0008
===================================
BLEU值只有0.03345

rxc205 avatar Nov 29 '22 03:11 rxc205

image inference结果也产生了很多unk

rxc205 avatar Nov 29 '22 13:11 rxc205

@rxc205 最近忙还未更新代码,这里简单说下:

  1. 训练数据的source1和source2以及target中不要保留数字,英文字母,标点等字符,通常包含这些字符容易导致生成效果不好。
  2. 数据处理脚本中,已经对上面1中提到的特殊字符进行了过滤,然而你的结果中还出现了英文、数字、标点等,检查看看是否用的是本仓库的代码。
  3. 末尾的#PAD#代表代表生成已经结束,需要自己进行后处理并过滤掉。
  4. 你的loss还比较高,且BLEU值比较低,建议自己对训练数据和超参数进行优化。

如果你直接用本仓库data目录下的少量数据进行训练,你会发现loss也一直在下降,而BLEU值小主要是data目录下给定的训练数据很少,只有150条,模型在这150条数据上学习的知识很难在验证集上有好的推理效果。所以建议检查自己的数据质量和数据预处理方式。

xiaolongjean avatar Dec 11 '22 11:12 xiaolongjean