GPT2-Chinese icon indicating copy to clipboard operation
GPT2-Chinese copied to clipboard

master分支,能否提供一下train.json的样例

Open moo611 opened this issue 2 years ago • 4 comments

“该文件的结构是:每行一个json字符串。” 这句话没看懂

moo611 avatar Dec 13 '21 05:12 moo611

已经加上去了

BiEchi avatar Mar 12 '22 21:03 BiEchi

["第一篇文章的正文", "第二篇文章的正文", "第三篇文章的正文"] 也就是文章的正文,不需要任何的处理?例如: 谢丰荣   “听人介绍,你们这儿有一家疼痛银行?”   “你看不见那块大大的招牌吗?”小姐居然很傲慢。这也难怪,全世界只此一家,别无分店。   他试探着问:“听说你们可以将疼痛转移?”   “疼痛银行有两种主要业务:第一种,你可以将疼痛储蓄起来,像存款一样,然后在你认为最合适的时候取走,零存整取、整存零取都行,当然你会为此付出一大笔费用,而且你必须在生前全部取走,否则会强制你的亲人承担;第二种,你可以将你的疼痛像转账一样转移给另一个人,前提是他乐意接受。”小姐像背台词一样滔滔不绝地介绍起来。

这种就可以了?

yinhexi009 avatar Nov 15 '22 08:11 yinhexi009

我也不太明白这个json文件具体长什么样子?能否提供一个?

cxhermagic avatar Dec 01 '22 08:12 cxhermagic

实际上这个项目的训练目标是输入一段文本,然后在此文本上进行续写,而非 input, output 模式的对应(其实这个和实际需求有较大的出入,大部分人的需求是类似于对话模式的 input 和 output),所以才会在数据集的格式上产生疑问

wujohns avatar Mar 02 '23 01:03 wujohns