biiii comments

Results 11 comments of


biiii

一些小问题

測試完測試集總會想要自己任意輸入句子試試看，我想作者是測完自己輸入的句子就直接上傳了吧。

一些小问题

@Sallylearning 是的，訓練集和測試集是自行標註的語料，訓練完再經由測試集來評比模型的成果。

一些小问题

@Sallylearning 那我這麼說吧，神經網路可以依據妳相對少量的訓練集做訓練，接著標註世界上更多更多需要標註的資料。那為什麼要CRF結合LSTM呢？因為它結果更好。

一些小问题

@Sallylearning 妳先去網路上找些神經網路的基礎知識看看吧，找完再照著別人的代碼實作，妳就會覺得自己現在問的問題很可愛了。建議一開始就從CNN數字辨識開始吧。

测试集数据

讀作者的code就能了解數據的格式了。在process_data.py檔案裡。稍微解釋一下。 ###原始數據### 老 B-PER 王 I-PER 很 O 喜 O 歡 O 中 B-LOC 國 I-LOC 妹 O 子 O ###要丟進LSTM的數據### X_train應該是長這樣[0, 1, 15, 24, 65, 102, 103,...

测试集数据

@Sallylearning 大神您有見過不用訓練集就能產生模型的機器嗎？您說的自動標註應該是完成的模型能自動標註吧？那因為 @Mariobai 只有詢問資料格式，所以我就沒有講到CRF的部分，就像作者博客寫的LSTM有時候會有I-LOC接I-PER這種不可能的情形，所以才要在LSTM的輸出層再接CRF層，讓模型能避免到這個錯誤。這個部分是在bilstm_crf_model.py裡面。

@Sallylearning 沒事沒事，別緊張，我沒有發怒，是我表達能力不好，不好意思了。這個模型主要是拿來做命名實體辨別(NER)的，辨識句子中的人物地點組織名。這在NLP裡面是蠻重要的課題。今天對於一個自然文本，需要找出相關的命名實體與它的位置，而專有名詞有非常多種，網民今天搞不好又多了新的網路用語，或是一般對於地理位置的簡稱，珠三角，北上廣等等。那這部分斷詞是無法斷出來的。所以我想妳說的減少人工標註應該是指對於斷詞出來的結果做NE的標註吧？

why x = [[word2idx.get(w[0].lower(), 1) for w in s] for s in data]?

我也挺納悶這點的，但我想應該是，只要妳默認的數值對應到的文字不是NE就可以吧？