Pretrained-Language-Model icon indicating copy to clipboard operation
Pretrained-Language-Model copied to clipboard

wmt数据下载

Open 0-KaiKai-0 opened this issue 3 years ago • 1 comments

请问论文Universal Conditional Masked Language Pre-training for Neural Machine Translation中所描述的数据集size是指什么,以及能否提供论文中所使用的数据下载源。 image

0-KaiKai-0 avatar Nov 29 '22 12:11 0-KaiKai-0

您好,这个数据是从WMT官网下载并清洗之后的数据,size是指用于训练的数据规模,和mBART论文中一致;由于google硬盘空间有限,当前还无法提供所处理后的wmt数据,后边可能会选择在其他云盘上传,您也可以下载后按readme的说明进行处理,谢谢

jingmu123 avatar Dec 01 '22 02:12 jingmu123