analysis-ik icon indicating copy to clipboard operation
analysis-ik copied to clipboard

不同版本的分词结果不一样

Open lrk1056 opened this issue 3 years ago • 0 comments

Hi 你好, 我在测试功能时,发现 7.16.2、7.16.3 版本中,很多词汇 ik_max_word 和 ik_smart 分词结果相同,在 7.11.2 和其他低版本中,分词结果正常。请问这是一个bug问题,还是一个功能上的改进? 是正常的升级么?

举例,我在使用ik分支器的 7.11.2版本分词结果如下

GET /_analyze?filter_path=**.token
{
  "text": "平凡之路", 
  "analyzer": "ik_max_word"
}

结果
{
  "tokens" : [
    {
      "token" : "平凡之路"
    },
    {
      "token" : "平凡"
    },
    {
      "token" : "凡之"
    },
    {
      "token" : "之路"
    }
  ]
}

GET /_analyze?filter_path=**.token
{
  "text": "我曾经跨过山河大海", 
  "analyzer": "ik_max_word"
}

{
  "tokens" : [
    {
      "token" : "我曾经"
    },
    {
      "token" : "我曾"
    },
    {
      "token" : "我"
    },
    {
      "token" : "曾经"
    },
    {
      "token" : "跨过"
    },
    {
      "token" : "过山"
    },
    {
      "token" : "山河"
    },
    {
      "token" : "河大"
    },
    {
      "token" : "大海"
    }
  ]
}

使用新版本 7.16.2、7.16.3 测试结果如下

{
  "tokens" : [
    {
      "token" : "平凡"
    },
    {
      "token" : "之路"
    }
  ]
}

{
  "tokens" : [
    {
      "token" : "我"
    },
    {
      "token" : "曾经"
    },
    {
      "token" : "跨过"
    },
    {
      "token" : "山河"
    },
    {
      "token" : "大海"
    }
  ]
}

lrk1056 avatar Jan 29 '22 10:01 lrk1056