GPT2-Chinese icon indicating copy to clipboard operation
GPT2-Chinese copied to clipboard

训练语料格式问题

Open libralibra opened this issue 3 years ago • 2 comments

说明中有这么一句话:

train.json里是一个json列表,列表的每个元素都分别是一篇要训练的文章的文本内容(而不是文件链接)。

我看了例子,似乎是["文章1","文章2","文章3"].难道直接把文章的大段内容直接作为一个item放进列表?如果文章很长怎么办?如果文章中包含引号呢?

那种超大的(几个G)的语料文件是怎么做的?

libralibra avatar Feb 28 '21 18:02 libralibra

文件格式随便你怎么处理都可以,在构建Dataset的时候按照你自己的格式读取就好了。一个文本很长建议进行截断,处理成多个训练样本。几个G预料不大。

luozhouyang avatar Jun 22 '21 03:06 luozhouyang

请问,这种情况下如何保留截断后的部分之间的逻辑性?

iamliving avatar May 09 '23 01:05 iamliving