Guan Wang

Results 122 comments of Guan Wang

这个就是intent_classifier_sklearn,MITIE只是用来生成feature. 我用基本一致的配置确实一分钟内训练完的,当然jieba部分并没有用到词库。 另外tokenizer_bf是你自定义的分词器吗,是这里慢的原因吗?

@BrikerMan 可以的,发我邮箱吧 [email protected] 我就是怀疑自定义字典加载慢的缘故...

@BrikerMan 我没有收到你的sample数据啊...

用你的数据在跑了,跑到classification那一步确实很慢.... ``` Part I: train segmenter words in dictionary: 200000 num features: 271 now do training C: 20 epsilon: 0.01 num threads: 1 cache size: 5 max iterations: 2000 loss...

语料可以在这里找到: https://github.com/crownpku/Awesome-Chinese-NLP#corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99 纯文本文件,不能是json或者xml之类的格式,会影响分词和词向量的训练。分词后放在指定的path下面就可以。

@unyqhz 之前total_word_feature_extractor.dat的链接失效了,[blog](http://www.crownpku.com/2017/07/27/%E7%94%A8Rasa_NLU%E6%9E%84%E5%BB%BA%E8%87%AA%E5%B7%B1%E7%9A%84%E4%B8%AD%E6%96%87NLU%E7%B3%BB%E7%BB%9F.html)中给出了新的链接。 百度百科的链接不是我维护的,刚才试了一下确实失效了。

是你的训练数据太少了吗?

这是你跑哪一步的错误?用MITIE预训练词向量吗?我这一步是256GB内存。

嗯,你可以去MITIE的仓库看看相关的issue或者直接向他们提问,看看有没有分布式之类的解决办法: https://github.com/mit-nlp/MITIE