Aix
Aix
我想順便把字典寫在設定檔的問題解決 但 @crownpku 你目前的版本是 '0.12.0a1',最新版是'0.12.2' 它們在設定檔上有極大的差異  你要先升級上去,還是我覆蓋掉
目前的版本沒有對外開放API(官方也不採用)去更新訓練後模型的相關設定和模型(包括字典)在WEB服務啟動後 但目前的版本(rasa NLU CHI)是可以直接替換掉你的路徑下的字典之後,重新啟動WEB服務就會自動更新 另外,我目前有提交一個新的pull requests,相較於舊的版本字典沒有放在訓練後模型的文件夾,新版更新了字典在訓練之後要放在模型的文件夾,以方便進行版本控管(模型一和模型二可能字典有差異), 所以在一般的開發流程,最好是你將新的字典納入訓練,產生出新的模型進行版控,之後佈署到WEB服務的環境下
我覺得都可以,像是spaCy,只是有沒有人實作出來rasa nlu component tensorflow 可以做intent的分類,但目前官方應該沒有辦法做實體辨識,至少我看文件是這樣 tensorflow 那招是基於 facebook starspace去實作的 https://arxiv.org/abs/1709.03856
關於加入jieba字典的方法,我有一些疑問 因為使用python setup.py install ,把它安裝在site-packages裡面 unzip -l rasa_nlu-0.12.0a1-py3.6.egg | grep jieba 1665 03-12-2018 15:44 rasa_nlu/tokenizers/jieba_tokenizer.py 2200 03-12-2018 16:22 rasa_nlu/tokenizers/__pycache__/jieba_tokenizer.cpython-36.pyc 我rasa_nlu是引用這個位置的package 而非git clone https://github.com/crownpku/Rasa_NLU_Chi.git 目錄下的package 所以我專案目錄下,執行`python -m rasa_nlu.train -c sample_configs/config_jieba_mitie_sklearn.json` 依據你的源碼...
@RuiZhang1993 我也有這個問題,剛好也是人名識別 @crownpku 可以分享一下你怎麼解決這個問題,在你的程式碼哪一段呢? 我覺得中文的機器人有些地方特別難做,尤其在實體辨識上,像我目前在開發的應用,是類似一些互動式填表機器人,我遇到的難處有兩個部份 第一個就是樓主這樣的狀況,假如分詞沒有分好,實體辨識很難做 另外,假如一張表格裡面有兩個欄位填寫的資料型態一樣,感覺也很難做,但這應該不侷限在中文 而實體在對話管理當中很重要的一環 後來,我覺得regex是一個不錯的解決方法,在特定的實體辨識上 因為實體在對話管理扮演很重要的角色,實體沒有辨識精準,有些事沒辦法完成 所以我把實體辨識的部份有些置入rasa_core去控制(利用regex),我覺得這樣比較能準確地把實體辨識出來,但我就在想這樣做是不是不太好,唉~~ 不知道@crownpku有沒有可以一些心得在處理這樣的事呢?