analysis-ik icon indicating copy to clipboard operation
analysis-ik copied to clipboard

英文数词被标记为 CN_WORD

Open stormyi opened this issue 11 months ago • 3 comments

Description

ik_smart(v7.10.0) 对英文数词+中文量词 组合的分词效果与预期不符,特别不能理解的是"7天"的 7 为什么是 CN_WORD? (ps:相同环境在 es 7.10.2 + ik 7.10.2 英文数词+中文量词 被标记为 TYPE_CQUAN)

Steps to reproduce

POST /_analyze '{"field":"content","analyzer":"ik_smart","text":"7天 44天 55天"}'

Expected behavior

"7天"应该是一个 TYPE_CQUAN { "token": "7天", "start_offset": 0, "end_offset": 2, "type": "TYPE_CQUAN", "position": 0 }

Actual behavior

{ "token": "7", "start_offset": 0, "end_offset": 1, "type": "CN_WORD", "position": 0 }, { "token": "天", "start_offset": 1, "end_offset": 2, "type": "CN_CHAR", "position": 1 }

Environment

  • Versions: Elasticsearch 7.10.0

stormyi avatar Feb 27 '24 04:02 stormyi

按照我的预期,"7天"应该是一个 token,而不是被拆分为"7"和"天"。看起来是因为"7"被认为是一个 CN_WORD,所以没有和"天"组合。有人能解惑一下吗

stormyi avatar Feb 28 '24 02:02 stormyi

@medcl

stormyi avatar Feb 28 '24 12:02 stormyi

嗯,这块是需要优化,IK 项目近期会整理遗留的 Bug,我们会继续完善。

medcl avatar Feb 29 '24 01:02 medcl