lac icon indicating copy to clipboard operation
lac copied to clipboard

'seg'和'lac'分词结果不一致

Open cheyong007 opened this issue 3 years ago • 1 comments

问题:

pip默认安装,发现lac_modelseg_modelrank_modelword.dic字典文件不同,导致分词结果不一致。

lac_model\confword.dic,746KB,58223行,包含多字词语; rank_model\confword.dic,746KB,58223行,包含多字词语,和lac_model相同; seg_model\confword.dic,71KB,8223行,只包含单字。

    text = "“没有什么比这场疫情下的生与死更能体现美国的肤色差异了”。"

    lac_seg = LAC(mode='seg')
    seg_result = lac_seg.run(text)

    lac_lac = LAC(mode='lac')
    lac_result = lac_lac.run(text)

    lac_rank = LAC(mode='rank')
    rank_result = lac_rank.run(text)

结果:

seg_result = ['“', '没有', '什么', '比', '这', '场', '疫情', '下', '的', '生与死', '更', '能', '体现', '美国', '的', '肤色', '差异', '了', '”', '。']

lac_result = [['“', '没有', '什么', '比', '这场', '疫情', '下', '的', '生与死', '更', '能', '体现', '美国', '的', '肤', '色差异','了', '”', '。'], ['w', 'v', 'r', 'p', 'r', 'n', 'f', 'u', 'n', 'd', 'v', 'v', 'LOC', 'u', 'n', 'a', 'u', 'w', 'w']]

尝试:

  1. seg_model\confword.dic 替换为 lac_model\confword.dic,会报错,不支持多字词;
  2. lac_model\confword.dic替换为seg_model\confword.dic ,结果一致。
  3. rank_model\confword.dic替换为seg_model\confword.dic,rank不受其影响,依赖于lac模式的分词结果。

能否在三种模式下使用同一个字典文件来确保分词结果一致?

实在不想要维护三个版本的字典文件,可能会造成混乱啊。 lac模式下只用单字的字典文件会不会有影响? 使用三个版本的字典文件,是有什么考虑么?

cheyong007 avatar Apr 14 '21 07:04 cheyong007

我也遇到了分词不一致的问题,官方是否可以让rank和seg的分词保持一致? image

yayaQAQ avatar Aug 26 '21 07:08 yayaQAQ