Aix

Results 15 comments of Aix

主要差異在 ![image](https://user-images.githubusercontent.com/21021633/39558488-96ef0f8e-4ec1-11e8-8894-4e686f91dfbe.png) ![image](https://user-images.githubusercontent.com/21021633/39558469-764b6cb4-4ec1-11e8-96b6-98acbe699582.png) 新版把**訓練資料**、**模型放的位置**從設定檔獨立出來 舊版 ![image](https://user-images.githubusercontent.com/21021633/39558518-ceed5846-4ec1-11e8-8669-e0eeee8ff375.png)

把設定檔改成yml的版本就可以了,不行的話,再來看看。因爲感覺像是parse出錯,導致變數不是字典變成字串了

這是我的問題,因為我在pull request的時候,沒有順便去修正README.md,造成困擾,我有責任上來回覆一下 假如 @crownpku 沒有時間處理,我這個假日可以把 README.md 修改一下

@YanaGuo json\yml两者有什么区别呢?为甚么会有两种,什么时候可以用? JSON是舊版的格式,把所有設定都放進去,但是比較沒有彈性,這也是這個PROJECT長期以來想要解決的問題(EX:JIEBA字典) YML是新版的格式,只剩下用來設定PIPELINE,其他設定抽出來(訓練資料和訓練完後的模型位置),但讓每一個PIPELINE的COMPONENT都可以定義自己的參數設定 YML格式也比JSON格式更直覺,上面是我個人的想法

crownpku 你好, 因為我這邊必須要使用繁體中文字的wiki內容訓練MITIE, 但我在網路上都找不到繁體訓練完的 total_word_feature_extractor_chi.dat 所以想請教你關於內存的部份到底要多少GB才夠呢? (官網上說要128GB,你BLOG建議說可能會幾十GB) 麻煩你了,謝謝!!

@crownpku 你回好快喔,這招真高招,那我等我的主機來再玩玩MITIE 另外,我對rasa-nlu不熟,我看了文件是不是就是只有這步MITIE需要很大的內存呢?

jieba_defaultdict = glob.glob("./*.big") if len(jieba_defaultdict) == 0: print("No Jieba Default Dictionary found") elif len(jieba_defaultdict) == 1: print("Setting Jieba Default Dictionary at " + str(jieba_defaultdict[0])) jieba.set_dictionary(jieba_defaultdict[0]) else: print("The number of Jieba...

Sorry,我解釋我的狀況 因為預設jieba的主詞典是簡體,因為我這邊是繁體的,所以要利用jieba.set_dictionary將主詞典由dict.txt更換成dict.txt.big(目的是分詞出繁體常用的字詞) 之後才利用jieba.load_userdict添加自己客製的詞典(目的是分詞出特定領域常用的字詞)

那方便整合進去嗎? 因為那個切詞幾乎就決定後面的表現 謝謝!!

沒有,我假日試試看pull request ,我沒有試過在github整合 另外,我看到rasa_nlu的代碼已經把你的tokenizer整合進去,跟這邊的有什麼不一樣呢?