Document-Transformer icon indicating copy to clipboard operation
Document-Transformer copied to clipboard

数据里的预处理

Open zl1300012994 opened this issue 5 years ago • 7 comments

您好: 我是北京大学的一名学生,正在研究document_nmt这部分,想请问您,如果方便的话,是否可以提供论文中提到的数据集呢?此外,想请问下,对于数据集的预处理部分,可以开放看看么,对于中文该进行哪些预处理呢~ 期待您的回复~ 祝好~

zl1300012994 avatar Jul 02 '19 03:07 zl1300012994

你好,感谢你对这篇工作的关注。法英数据集从这下载。中英LDC数据集因为有版权问题,如果确定北大有这些数据集的使用权的话,可以通过邮件联系我。

预处理方面,对于中文的预处理是normalize+thulac分词+tokenize+lowercase,对其他语言的预处理是normalize+tokenize+lowercase。

Glaceon31 avatar Jul 02 '19 09:07 Glaceon31

谢谢您的回复! 这是我的邮箱[email protected],我知道北大的计算所有这个权限,但是我并不是这个实验室的,我不知道这样算不算,不方便的话就算啦,感谢~。 以及预处理的normalize能说一下具体细节么,或者看看您的预处理脚本或源码,因为中文的预处理不同感觉会有一定影响,十分感谢您~

zl1300012994 avatar Jul 02 '19 09:07 zl1300012994

LDC的数据是按学校卖使用权的,所以这个应该没有问题。normalize使用的是实验室写的一个脚本,我先找一下,稍后通过邮箱一起给你吧。

Glaceon31 avatar Jul 03 '19 15:07 Glaceon31

实在太感谢了!!!~

zl1300012994 avatar Jul 05 '19 02:07 zl1300012994

我好像没找到您的邮箱,我看我回信都是回到github的链接上,等您方便的时候,我的邮箱是这个[email protected],十分感谢~ 祝好~

zl1300012994 avatar Jul 05 '19 03:07 zl1300012994

好的,已发送!

Glaceon31 avatar Jul 05 '19 08:07 Glaceon31

您好!请问您论文中使用的验证集和测试集NIST2002-2008是开源的吗?改怎么获取呢?

zhangzhiyang-2020 avatar Nov 16 '21 12:11 zhangzhiyang-2020