elasticsearch-jieba-plugin icon indicating copy to clipboard operation
elasticsearch-jieba-plugin copied to clipboard

词典里不支持单个字的分词么

Open yren opened this issue 3 years ago • 9 comments

比如: 在 user.dict 加入一条单字分词 "药 3"

对 text "药品" 的分词测试,只有一个 token "药品"。

希望得到两个, token "药" 和 token “药品”

请问可以在字典里加入单字,对这个单字分词么

yren avatar Jul 15 '21 03:07 yren

是既有单字,也有词的分词么?

sing1ee avatar Oct 14 '21 15:10 sing1ee

是的,有单字,也有词的分词。比如:

药 3 药品 3

这种没有对 "药" 分词。

yren avatar Oct 19 '21 13:10 yren

另外,如果自定义词典里的词有包含关系,分词处理似乎也有问题。比如:

反渗透膜 3 反渗透膜元件 3

对于文本。"实验用反渗透膜元件", 期待的分词后有 "反渗透膜", "反渗透膜元件" 两个 token, 但实际上只有 "反渗透膜元件" 一个 token

yren avatar Oct 19 '21 13:10 yren

@yren 试试修改分词的模式,采用index的方式,不要采用search的方式

sing1ee avatar Oct 20 '21 00:10 sing1ee

嗯,使用的是 index 方式 (jieba_index) , 但还是存在上述问题

yren avatar Oct 20 '21 01:10 yren

@yren jieba的python版本,有试验过么?或者jieba-analysis的版本,试一下

sing1ee avatar Oct 20 '21 02:10 sing1ee

我有时间试一下。 这些是 jieba ES plugin 的 dependency 是吧

yren avatar Oct 20 '21 02:10 yren

@yren 主要是 jieba-analysis,python版本的jieba的java实现。

sing1ee avatar Oct 20 '21 02:10 sing1ee

这个问题一直都存在

huster-songtao avatar Mar 18 '22 13:03 huster-songtao