Attention-ocr-Chinese-Version
Attention-ocr-Chinese-Version copied to clipboard

Published 20 hours ago •

Reame
Issues

关于decoder部分训练时输入的问题

Open Lebron-Harden opened this issue 4 years ago • 0 comments

最近在做古籍识别，用到了paddleocr中的attention部分作为序列预测部分，但是碰到了一个问题：

在attention的decoder部分，如果将前一时刻decoder的输出作为当前时刻的输入，模型训练效果很差，收敛很慢，准确率上不去；但是如果将前一时刻的真实标签作为当前时刻的输入，模型收敛速度直接起飞，很快训练准确率就到1，但是预测准确率一直是0，似乎是这样做直接把真实标签作为了训练模型的输入，导致模型根本没有得到训练。
但就我个人对seq2seq模型的理解，在训练时将前一时刻的真实标签作为当前时刻的输入，应该是更容易将模型往理想的方向训练，更容易收敛，模型理应训练得更好，但是出现了预测准确了一直为0的情况。我真的很困惑，不知道大佬是否可以解决一下我的疑问。

Oct 18 '21 08:10 Lebron-Harden