biiii

Results 11 comments of biiii

測試完測試集總會想要自己任意輸入句子試試看,我想作者是測完自己輸入的句子就直接上傳了吧。

@Sallylearning 是的,訓練集和測試集是自行標註的語料,訓練完再經由測試集來評比模型的成果。

@Sallylearning 那我這麼說吧,神經網路可以依據妳相對少量的訓練集做訓練,接著標註世界上更多更多需要標註的資料。那為什麼要CRF結合LSTM呢?因為它結果更好。

@Sallylearning 不會不會,教學相長!

@Sallylearning 就是要有標註才能測試出正確率阿。

@Sallylearning 妳先去網路上找些神經網路的基礎知識看看吧,找完再照著別人的代碼實作,妳就會覺得自己現在問的問題很可愛了。建議一開始就從CNN數字辨識開始吧。

讀作者的code就能了解數據的格式了。 在process_data.py檔案裡。 稍微解釋一下。 ###原始數據### 老 B-PER 王 I-PER 很 O 喜 O 歡 O 中 B-LOC 國 I-LOC 妹 O 子 O ###要丟進LSTM的數據### X_train應該是長這樣[0, 1, 15, 24, 65, 102, 103,...

@Sallylearning 大神您有見過不用訓練集就能產生模型的機器嗎?您說的自動標註應該是完成的模型能自動標註吧? 那因為 @Mariobai 只有詢問資料格式,所以我就沒有講到CRF的部分,就像作者博客寫的LSTM有時候會有I-LOC接I-PER這種不可能的情形,所以才要在LSTM的輸出層再接CRF層,讓模型能避免到這個錯誤。這個部分是在bilstm_crf_model.py裡面。

@Sallylearning 沒事沒事,別緊張,我沒有發怒,是我表達能力不好,不好意思了。 這個模型主要是拿來做命名實體辨別(NER)的,辨識句子中的人物地點組織名。這在NLP裡面是蠻重要的課題。今天對於一個自然文本,需要找出相關的命名實體與它的位置,而專有名詞有非常多種,網民今天搞不好又多了新的網路用語,或是一般對於地理位置的簡稱,珠三角,北上廣等等。那這部分斷詞是無法斷出來的。 所以我想妳說的減少人工標註應該是指對於斷詞出來的結果做NE的標註吧?

我也挺納悶這點的,但我想應該是,只要妳默認的數值對應到的文字不是NE就可以吧?