seq2seq_chatbot icon indicating copy to clipboard operation
seq2seq_chatbot copied to clipboard

请问要怎么用自己製作的中文语料来进行训练呢?

Open lilyliou opened this issue 6 years ago • 6 comments

请问要怎么用自己製作的中文语料(.txt档案)来进行训练呢?

lilyliou avatar Apr 25 '18 12:04 lilyliou

可以参考DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

lc222 avatar Apr 26 '18 08:04 lc222

DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

不好意思,可以在麻煩解說詳細一點嗎(需要改成哪些程式碼之類?或是有參考範例嗎~!?)

o55665516 avatar May 29 '18 01:05 o55665516

DeepQA/chatbot/目录下面的textdata.py是他写的数据类,你先把这个看懂,然后这个目录下面还有一个corpus目录,里面是各个数据集的处理方法,你可以选择一个对着看一下,应该就没什么问题了

lc222 avatar May 30 '18 02:05 lc222

DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

不好意思,可以在麻煩解說詳細一點嗎(需要改成哪些程式碼之類?或是有參考範例嗎~!?)

你好,请问使用自己的中文语料库做数据的问题你实现了吗,可以分享一下吗

dykhliww avatar Jan 19 '19 13:01 dykhliww

你先看清楚作者的训练数据是什么形式,他是用pickle将数据转储成二进制文件也就是data文件夹下面的dataset-cornell-length10-filter1-vocabSize40000.pkl,这个二进制文件里面是一个data词典,有三个key:word2id词典,id2word词典,还有转成索引号的问答对列表trainingSamples,你要做的就是把你的中文语料处理成这三个东西,再转储到pkl文件里面,替换掉作者的pkl文件,基本上没问题,我就是这么搞的。

yjyGo avatar Apr 14 '19 07:04 yjyGo

我今年三月份才开始搞问答,之前从没接触过

yjyGo avatar Apr 14 '19 07:04 yjyGo