ckiptagger construct_dictionary() 權重設定無效

範例中設定權重字典為： word_to_weight = {"土地公": 1,"土地婆": 1,"公有": 2,"": 1,"來亂的": "啦","緯來體育台": 1,}

應該是希望可將 "土地公有政策?？還是土地婆有政策。" 這句話斷成 ['土地', '公有', '政策' ...]

但是定義好字典後，斷出來仍是 ['土地公', '有', '政策' ...]

請問問題出在哪裡呢？（ps: 範例的字典也怪怪的，"來亂的": "啦" 跑掉了）

Feb 18 '20 17:02 alalachin

參考 demo 網站，範例的自訂詞典作為 coerce_dictionary 時應會斷開土地和公有。

Mar 31 '20 09:03 jacobvsdanniel

您好，我也遇到相同問題，加入專有名詞後，如下 word_to_weight = { "緯來體育台": 1, "鬼金棒": 2, "海底撈": 2 } 仍無法斷出專有名詞"鬼金棒"或是"海底撈"... 句子：海底撈桌邊服務，服務態度超優的斷詞結果：['海', '底', '撈', '桌', '邊', '服務', '，', '服務', '態度', '超優', '的']

再請您幫忙解惑使用方式了，謝謝您~

Apr 13 '20 09:04 r07725012

@r07725012 @alalachin, demo.py 裡面註解的地方要消掉。 Example:


sentence_list = [
        "土地公有政策?？還是土地婆有政策。.",
        "海底撈桌邊服務，服務態度超優的"
]

word_to_weight = {
        "土地公": 1, "土地婆": 1, "公有": 2,
        "來亂的": "啦","緯來體育台": 1,
        "緯來體育台": 1, "鬼金棒": 2, "海底撈": 2
}

word_sentence_list = ws(sentence_list)
""" 會得到：
土地公 有 政策 ? ？ 還是 土地 婆 有 政策 。 .
海 底 撈 桌 邊 服務 ， 服務 態度 超優 的
"""

word_sentence_list = ws(sentence_list, coerce_dictionary=dictionary)
""" 會得到：
土地 公有 政策 ? ？ 還是 土地婆 有 政策 。 .
海底撈 桌 邊 服務 ， 服務 態度 超優 的
"""

BTW @jacobvsdanniel 我看 Readme 或是 Wiki 裡面沒有提到 coerce_dictionary 跟 recommend_dictionary 還有 sentence_segmentation 是什麼意思QQ

May 21 '20 09:05 zychen423

ckiptagger ckiptagger copied to clipboard

construct_dictionary() 權重設定無效

ckiptagger
ckiptagger copied to clipboard