呜呜哈 comments

Results 18 comments of


                                            呜呜哈

请问要怎么用自己製作的中文语料来进行训练呢？

可以参考DeepQA里面的数据处理的代码把数据机构造成本模型所需要的格式即可。

请问要怎么用自己製作的中文语料来进行训练呢？

DeepQA/chatbot/目录下面的textdata.py是他写的数据类，你先把这个看懂，然后这个目录下面还有一个corpus目录，里面是各个数据集的处理方法，你可以选择一个对着看一下，应该就没什么问题了

使用embedding_attention_seq2seq()训练时，内存会爆掉

没有诶，内存爆掉可以试试减小batch_size

使用embedding_attention_seq2seq()训练时，内存会爆掉

应该不会吧，attention占用内存应该挺小的，而且我没遇到过这个问题==你看看是不是自己机器性能不够

No such file:[model/]

你这个应该是在预测过程中找不到之前已经训练好的模型文件，就是这种错误你定位到错误的代码语句，自然能分析出问题出在哪，肯定是文件路径的问题自己找找应该哪里出的错吧==

何處添加END符號呢?

这个问题你可以看一下model文件，会在train的过程中给target添加end符号。就是在model.py文件的if self.mode == 'train':这一句代码后面进行添加的。希望可以解决你的问题。

seq2seq_chatbot_new 和seq2seq_chatbot

一个用的是tf下面的legacy_seq2seq API，一个用的是最新版的seq2seq API。

结果全是一模一样的重复字段

是所有query回复都一样嘛？？还是说有的query回复的是一堆没有意义的话。如果是后者我也是这样，只有部分query恢复效果较好。另外像你们这种情况应该是没有训练吧，我之前也是，好像并没有进入训练阶段，有点记不清了。。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe6 in position 4094: invalid continuation byte

额，首先你要保证你的文本编码格式正确，其次，这是对话模型，最好输入的文本长度不要超过max_length，不然输入的再长也没有什么意义==

Does the two papers has the same idea?

The two papers have the same idea, but the second one added the idea of attention. And I achieved the attention function in the model.py file. You should read these...