GPT2-Chinese icon indicating copy to clipboard operation
GPT2-Chinese copied to clipboard

用金庸15部小说训练

Open yangjianxin1 opened this issue 5 years ago • 12 comments

使用金庸15部小说训练了30个epoch,生成了几个sample

运行的命令如下: python train_single.py --raw_data_path preprocessor/train_jinyong.json --epochs 30 --output_dir model_path/ --raw --device 0,2 --batch_size 6

就效果来说,差强人意,看了一下train_single.py的代码,貌似我忘记添加中文分词了,是不是应该加上---tokenizer_path cache/vocab_seg.txt --segment参数,效果会更好?

或者说训练时,设置参数,有没有其他需要注意的地方,非常感谢

SAMPLE 1 : 天窗中射进来的日光已渐黯淡,时近黄昏,不但郭靖胸口舒畅得多,连黄蓉也大感神清气爽。 小龙女问道:“过儿,你伤势怎样?”杨过道:“不知道。”小龙女道:“伤势不重,又怎会痊愈?只怕更增风寒。”杨过叹了口气,道:“不知什么时候,咱们日子倘若不在,那就再也不在世了。”小龙女道:“这个我就不能永远,那就更好。”隔了一会,问道:“那你为什么会气闷?” 杨过凄然道:“咱俩就只会想到外面去瞧瞧,虽然路上风景好,但花光多些,想来到了一点端倪,总是烦恼。”小龙女道:“那时还只盼他老是想来,因此没再能见到你。”杨过道:“不,我就是想到你身边的花花。”小龙女道:“那时候他老是想出来了,要你多休息一会,再过一会,我就在这石堆中睡一会。” 杨过道:“你不知道为什么又来苦了?我想这一生一世,到外面来发愁,只怕有什么用?只有像你这样,才会厌烦。”小龙女道:“你要是盼望我陪着你,我一个人也在这里陪你。” 杨过听到这里,胸口热血上涌,大感困倦,道:“咱们就在这儿一块儿玩罢。”小龙女道:“你不用心思念我,我就是想不出去啦。”杨过道:“你在这儿陪伴我一会,我陪着你说话。”小龙女道:“好。”

杨过见她眼中泪水盈眶,胸襟豁达,忍不住便要掉下泪来,心想:“她虽然痴情,却是个天真无邪的傻女子。那么我一个傻傻瓜,

SAMPLE 2 : 天窗中射进来的日光已渐黯淡,时近黄昏,不但郭靖胸口舒畅得多,连黄蓉也大感神清气爽。 那日在大校场上,一行人抬到台上,黄蓉拿到烛台旁去拜祭,叫道:“爹,我来见你。”郭靖道:“你一直记着我,要等我烧了你来生回去。”黄蓉道:“不,我只好跟你一起去。你一个人这么好,别叫我黄岛主给你烧了。”郭靖道:“我不叫一声?你怕。黄岛主去了十多年,你千万别跟我说。”黄蓉道:“我要打架,你一辈子却不知道。大哥,你一定也给我烧了。我不叫一声爹爹,你永远不能跟我说。”郭靖道:“我也不叫。我不叫。”黄蓉道:“你去哪里?我要去哪里?” 郭靖听她这般说,不由得痴了,想起她常叫“蓉儿”,又不想要紧了,说道:“我陪你去。”黄蓉道:“你去哪里?”郭靖道:“我不去。”黄蓉道:“你要跟我说,只要你永远陪着我,我永远听你的话。”郭靖道:“我要永远陪着你,永远陪着你。”黄蓉叹道:“我不听你的话。”心下感动,握住她的双手,柔声道:“我不去。” 郭靖听黄蓉说到“你不说”两字,心中大动,又道:“大哥哥,多谢你一次。”说了这句话,突然眼眶儿红了,伸出了小手,道:“我跟你说这个话。”郭靖一愕,道:“大哥,到底你是谁?”黄蓉摇头道:“你不听话,我说不是。我不知道。”郭靖道:“我说过要跟着你。”黄蓉大喜,但想此时两人相见,相见

yangjianxin1 avatar Nov 13 '19 02:11 yangjianxin1

小说的话我觉得不需要分词吧,训练到最后loss多少?生成的话可以调节temperature,topp,topk,repetition_penalty参数,尝试不同的参数得到的不同效果

Morizeyao avatar Nov 13 '19 03:11 Morizeyao

@Morizeyao 最后loss是1.0到1.2左右,我再尝试一下调参数

yangjianxin1 avatar Nov 13 '19 03:11 yangjianxin1

这个loss挺好的,可以调一下生成参数看看

Morizeyao avatar Nov 13 '19 03:11 Morizeyao

@Morizeyao 好的,非常感谢,我调一下

yangjianxin1 avatar Nov 13 '19 03:11 yangjianxin1

您好 小說整体的json文件是怎么生成的 ?

Barnett8023 avatar Nov 28 '19 08:11 Barnett8023

老师用多大的显卡训练的

uuleaf avatar Feb 23 '20 11:02 uuleaf

您好 小說整体的json文件是怎么生成的 ?

Charon922 avatar May 03 '20 09:05 Charon922

请问你的json文件的格式是怎么样的

luyi404 avatar Jul 27 '20 02:07 luyi404

多本小说训练是一次训练一本吗,还是放一起?放一起太大了,训练不动。。。,要加什么参数吗分开训练

xuxiaoyaoo avatar Oct 21 '20 03:10 xuxiaoyaoo

我也想问json文件的格式是怎样的

Lyccl avatar Jul 28 '21 02:07 Lyccl

就按软件里的train.json["第一篇文章的正文", "第二篇文章的正文", "第三篇文章的正文"] 内容放双引号里面。 如果用train_single.py那json里所有内容都放一个双引号里面,["内容"]

------------------ 原始邮件 ------------------ 发件人: "Morizeyao/GPT2-Chinese" @.>; 发送时间: 2021年7月28日(星期三) 上午10:32 @.>; @.@.>; 主题: Re: [Morizeyao/GPT2-Chinese] 用金庸15部小说训练 (#99)

我也想问json文件的格式是怎样的

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

xuxiaoyaoo avatar Jul 28 '21 02:07 xuxiaoyaoo

请问一下,金庸15部小说的语料,是从哪里获取的呢?

Dinxin avatar Aug 11 '22 03:08 Dinxin