Guan Wang comments

Results 122 comments of


                                            Guan Wang

关于total_word_feature_extractor_zh.dat文件

这个就是intent_classifier_sklearn，MITIE只是用来生成feature. 我用基本一致的配置确实一分钟内训练完的，当然jieba部分并没有用到词库。另外tokenizer_bf是你自定义的分词器吗，是这里慢的原因吗？

关于total_word_feature_extractor_zh.dat文件

@BrikerMan 可以的，发我邮箱吧 [email protected] 我就是怀疑自定义字典加载慢的缘故...

关于total_word_feature_extractor_zh.dat文件

@BrikerMan 我没有收到你的sample数据啊...

关于total_word_feature_extractor_zh.dat文件

用你的数据在跑了，跑到classification那一步确实很慢.... ``` Part I: train segmenter words in dictionary: 200000 num features: 271 now do training C: 20 epsilon: 0.01 num threads: 1 cache size: 5 max iterations: 2000 loss...

关于自建语料库

语料可以在这里找到： https://github.com/crownpku/Awesome-Chinese-NLP#corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99 纯文本文件，不能是json或者xml之类的格式，会影响分词和词向量的训练。分词后放在指定的path下面就可以。

关于自建语料库

@unyqhz 之前total_word_feature_extractor.dat的链接失效了，[blog](http://www.crownpku.com/2017/07/27/%E7%94%A8Rasa_NLU%E6%9E%84%E5%BB%BA%E8%87%AA%E5%B7%B1%E7%9A%84%E4%B8%AD%E6%96%87NLU%E7%B3%BB%E7%BB%9F.html)中给出了新的链接。百度百科的链接不是我维护的，刚才试了一下确实失效了。

模型训练不了

是你的训练数据太少了吗？

实体和意图使用中文

请参考 #24

MITIE内存溢出，究竟要多少内存才够用

这是你跑哪一步的错误？用MITIE预训练词向量吗？我这一步是256GB内存。

MITIE内存溢出，究竟要多少内存才够用

嗯，你可以去MITIE的仓库看看相关的issue或者直接向他们提问，看看有没有分布式之类的解决办法： https://github.com/mit-nlp/MITIE