GPT2-Chinese 训练语料格式问题

训练语料格式问题

Open libralibra opened this issue 4 years ago • 2 comments

说明中有这么一句话：

train.json里是一个json列表，列表的每个元素都分别是一篇要训练的文章的文本内容（而不是文件链接）。

我看了例子，似乎是["文章1","文章2","文章3"].难道直接把文章的大段内容直接作为一个item放进列表？如果文章很长怎么办？如果文章中包含引号呢？

那种超大的（几个G）的语料文件是怎么做的？

Feb 28 '21 18:02 libralibra

文件格式随便你怎么处理都可以，在构建Dataset的时候按照你自己的格式读取就好了。一个文本很长建议进行截断，处理成多个训练样本。几个G预料不大。

Jun 22 '21 03:06 luozhouyang

请问，这种情况下如何保留截断后的部分之间的逻辑性？

May 09 '23 01:05 iamliving