elasticsearch-jieba-plugin
elasticsearch-jieba-plugin copied to clipboard
词典里不支持单个字的分词么
比如: 在 user.dict 加入一条单字分词 "药 3"
对 text "药品" 的分词测试,只有一个 token "药品"。
希望得到两个, token "药" 和 token “药品”
请问可以在字典里加入单字,对这个单字分词么
是既有单字,也有词的分词么?
是的,有单字,也有词的分词。比如:
药 3 药品 3
这种没有对 "药" 分词。
另外,如果自定义词典里的词有包含关系,分词处理似乎也有问题。比如:
反渗透膜 3 反渗透膜元件 3
对于文本。"实验用反渗透膜元件", 期待的分词后有 "反渗透膜", "反渗透膜元件" 两个 token, 但实际上只有 "反渗透膜元件" 一个 token
@yren 试试修改分词的模式,采用index的方式,不要采用search的方式
嗯,使用的是 index 方式 (jieba_index) , 但还是存在上述问题
@yren jieba的python版本,有试验过么?或者jieba-analysis的版本,试一下
我有时间试一下。 这些是 jieba ES plugin 的 dependency 是吧
@yren 主要是 jieba-analysis,python版本的jieba的java实现。
这个问题一直都存在