Li Peng-Hsuan (李朋軒)
Li Peng-Hsuan (李朋軒)
dictionary 的加入可以客製化分詞結果。不過目前的架構下 NER 僅將 WS 的結果作為參考,NER 辨識出的實體邊界不一定是 WS 辨識出的分詞邊界。
- CkipTagger預設開啟「字元編碼標準化 (character_normalization)」以協助模型辨識編碼不同但語義相同的字元。 - 但少數含有特殊符號的詞在標準化後可能與原詞不同,CkipTagger將之視為嚴重問題並丟出AssertionError。 - 使用者呼叫ner時可以catch此例外情況,但建議盡量只為有此問題的句子特別關閉字元編碼標準化。 ```python try: entity_sentence_list = ner(word_sentence_list, pos_sentence_list) except AssertionError: entity_sentence_list = [] for word_sentence, pos_sentence in zip(word_sentence_list, pos_sentence_list): try: singleton_entity_sentence_list = ner([word_sentence], [pos_sentence]) except...
https://ckip.iis.sinica.edu.tw/service/ckiptagger/ 如demo網頁,前者詞條僅做為參考,後者詞條必然獨立成詞。
展示網站目前使用 Intel Xeon Silver 4110 @ 2.10GHz Nvidia GeForce GTX 1080 Ti
目前可執行在 - tensorflow==1.15.0 - tensorflow==1.14.0 - tensorflow==1.13.2 - tensorflow==1.13.1
Merge #27。目前版本和TensorFlow 1.15及2.3皆相容。
CkipTagger的POS是根據斷詞結果再標記詞性,NER則是參考斷詞和詞性標注的character-based model。
輸入的list裡面有太長的句子會很大地影響速度及佔記憶體,或許是這個原因。 可以考慮用換行斷句,例如: pos([data['JFULL']]) -> pos(data['JFULL'].split("\n"))
參考 demo 網站,範例的自訂詞典作為 coerce_dictionary 時應會斷開 土地 和 公有。
您好, (1)(2)都不完全,實際是: 1. 每個句子分別斷詞 2. 50,000句全部區間一起算一個F1 Sincerely, 朋軒 On Fri, Jun 25, 2021 at 1:14 AM phc4valid ***@***.***> wrote: > 老師們您好, > 我想請問內文指出在 ASBC 4.0 Test Split (50,000 sentences) 之分數...