Document-Transformer 数据里的预处理

您好：我是北京大学的一名学生，正在研究document_nmt这部分，想请问您，如果方便的话，是否可以提供论文中提到的数据集呢？此外，想请问下，对于数据集的预处理部分，可以开放看看么，对于中文该进行哪些预处理呢~ 期待您的回复~ 祝好~

Jul 02 '19 03:07 zl1300012994

你好，感谢你对这篇工作的关注。法英数据集从这下载。中英LDC数据集因为有版权问题，如果确定北大有这些数据集的使用权的话，可以通过邮件联系我。

预处理方面，对于中文的预处理是normalize+thulac分词+tokenize+lowercase，对其他语言的预处理是normalize+tokenize+lowercase。

Jul 02 '19 09:07 Glaceon31

谢谢您的回复！这是我的邮箱[email protected]，我知道北大的计算所有这个权限，但是我并不是这个实验室的，我不知道这样算不算，不方便的话就算啦，感谢~。以及预处理的normalize能说一下具体细节么，或者看看您的预处理脚本或源码，因为中文的预处理不同感觉会有一定影响，十分感谢您~

Jul 02 '19 09:07 zl1300012994

LDC的数据是按学校卖使用权的，所以这个应该没有问题。normalize使用的是实验室写的一个脚本，我先找一下，稍后通过邮箱一起给你吧。

Jul 03 '19 15:07 Glaceon31

实在太感谢了！！！~

Jul 05 '19 02:07 zl1300012994

我好像没找到您的邮箱，我看我回信都是回到github的链接上，等您方便的时候，我的邮箱是这个[email protected]，十分感谢~ 祝好~

Jul 05 '19 03:07 zl1300012994

好的，已发送！

Jul 05 '19 08:07 Glaceon31

您好！请问您论文中使用的验证集和测试集NIST2002-2008是开源的吗？改怎么获取呢？

Nov 16 '21 12:11 zhangzhiyang-2020