Liang Ding
Liang Ding
> > 您好!很棒的工作~ 不过我有个疑问哈。WMT14 En-De 4.5M训练集 from-scratch训练,在newstest19测试的结果大约是36~37。虽然mbart原文没有这个setting,但是有同规模下的WMT17 En-Lv,4.5M这个规模使用mbart是会显著提升的。也就是说应该大于37~ 为何文中w/ mbart仅仅30.5 w/ mRASP也才35.2? 希望能解答 > > 你好,你的问题是为什么mbart在en-lv上有提升而en-de没有提升吗?似乎mbart的en-de使用的是19的训练集,所以他在table 3标注en-de训练集的数量是28M,在大于10M规模的数据集上mbart就会有下降了。另外你说的36-37是根据哪篇论文?mbart report的结果是 30.9。 谢谢回复~ 提4.5M为了说 mabrt在这个规模是work的,效果比from-scratch要好。我们自己组的结果wmt14 ende训练transformer_big,在newstest19测试是~37.5BLEU,这样的话w/ mbart,这个setting应该要好于37.5。
mbart Table3 报的 30.9 BLEU 是从wmt19 ende随机抽取了28M训练数据,在newstest14做的测试。所以30.9是比较合理的~
p.s. wmt19 ende 的训练数据 训练transformer_big,在newstest 19上测试应该是 \~39-40。 anyway, 我觉得你们model的提升很合理,建议再check一下table 5的测试集~
this file was trained by the author ,it should be a w2v file~
your python version is too high ~ try to inference with 3.6 or 3.7