Aix
Aix
主要差異在   新版把**訓練資料**、**模型放的位置**從設定檔獨立出來 舊版 
把設定檔改成yml的版本就可以了,不行的話,再來看看。因爲感覺像是parse出錯,導致變數不是字典變成字串了
這是我的問題,因為我在pull request的時候,沒有順便去修正README.md,造成困擾,我有責任上來回覆一下 假如 @crownpku 沒有時間處理,我這個假日可以把 README.md 修改一下
@YanaGuo json\yml两者有什么区别呢?为甚么会有两种,什么时候可以用? JSON是舊版的格式,把所有設定都放進去,但是比較沒有彈性,這也是這個PROJECT長期以來想要解決的問題(EX:JIEBA字典) YML是新版的格式,只剩下用來設定PIPELINE,其他設定抽出來(訓練資料和訓練完後的模型位置),但讓每一個PIPELINE的COMPONENT都可以定義自己的參數設定 YML格式也比JSON格式更直覺,上面是我個人的想法
crownpku 你好, 因為我這邊必須要使用繁體中文字的wiki內容訓練MITIE, 但我在網路上都找不到繁體訓練完的 total_word_feature_extractor_chi.dat 所以想請教你關於內存的部份到底要多少GB才夠呢? (官網上說要128GB,你BLOG建議說可能會幾十GB) 麻煩你了,謝謝!!
@crownpku 你回好快喔,這招真高招,那我等我的主機來再玩玩MITIE 另外,我對rasa-nlu不熟,我看了文件是不是就是只有這步MITIE需要很大的內存呢?
jieba_defaultdict = glob.glob("./*.big") if len(jieba_defaultdict) == 0: print("No Jieba Default Dictionary found") elif len(jieba_defaultdict) == 1: print("Setting Jieba Default Dictionary at " + str(jieba_defaultdict[0])) jieba.set_dictionary(jieba_defaultdict[0]) else: print("The number of Jieba...
Sorry,我解釋我的狀況 因為預設jieba的主詞典是簡體,因為我這邊是繁體的,所以要利用jieba.set_dictionary將主詞典由dict.txt更換成dict.txt.big(目的是分詞出繁體常用的字詞) 之後才利用jieba.load_userdict添加自己客製的詞典(目的是分詞出特定領域常用的字詞)
那方便整合進去嗎? 因為那個切詞幾乎就決定後面的表現 謝謝!!
沒有,我假日試試看pull request ,我沒有試過在github整合 另外,我看到rasa_nlu的代碼已經把你的tokenizer整合進去,跟這邊的有什麼不一樣呢?