GPT2-Chinese
GPT2-Chinese copied to clipboard
训练语料格式问题
说明中有这么一句话:
train.json里是一个json列表,列表的每个元素都分别是一篇要训练的文章的文本内容(而不是文件链接)。
我看了例子,似乎是["文章1","文章2","文章3"].难道直接把文章的大段内容直接作为一个item放进列表?如果文章很长怎么办?如果文章中包含引号呢?
那种超大的(几个G)的语料文件是怎么做的?
文件格式随便你怎么处理都可以,在构建Dataset的时候按照你自己的格式读取就好了。一个文本很长建议进行截断,处理成多个训练样本。几个G预料不大。
请问,这种情况下如何保留截断后的部分之间的逻辑性?