THUMT icon indicating copy to clipboard operation
THUMT copied to clipboard

使用IWSLT17中-英数据集,在训练过程中BLEU持续升高,没有收敛的迹象,但模型在测试集上的泛化能力很差

Open edwardelric1202 opened this issue 4 years ago • 1 comments

使用的是IWSLT17中-英数据集,模型为Transformer,在训练过程中BLEU值一直在升高没有收敛,请问这是什么原因,与超参数的设置有关吗? INFO:tensorflow:BLEU at step 10000: 0.110296 INFO:tensorflow:BLEU at step 20000: 0.144964 INFO:tensorflow:BLEU at step 30000: 0.178070 INFO:tensorflow:BLEU at step 40000: 0.198967 INFO:tensorflow:BLEU at step 50000: 0.222250 INFO:tensorflow:BLEU at step 60000: 0.245278 INFO:tensorflow:BLEU at step 70000: 0.266681 INFO:tensorflow:BLEU at step 80000: 0.286975 INFO:tensorflow:BLEU at step 90000: 0.308338 INFO:tensorflow:BLEU at step 100000: 0.324188 `

初始参数设置如下: --parameters=batch_size=2048,device_list=[0],train_steps=100000,eval_steps=2000,update_cycle=4

在测试集(newstest)上,只有11左右的BLEU值。

edwardelric1202 avatar Jul 02 '20 14:07 edwardelric1202

首先,不知道这里开发集用的是什么。IWSLT数据集是口语的数据集,并且规模较小,newstest是新闻的数据集,这两个领域差距很大,newstest上BLEU低是可以理解的。训练过程中的BLEU一般是算的BPE后的BLEU而非tokenize后的BLEU,这个值一般会偏高。

Playinf avatar Aug 19 '20 07:08 Playinf