elasticsearch-analysis-hao
elasticsearch-analysis-hao copied to clipboard
一个非常hao用的elasticsearch(es)中文分词器插件
Readme 中有介绍 hao 分词器比 IK 更快,请问是怎样实现的呢?快多少? 我这边使用 IK 分词器扩展千万级词典时,索引建立效率大幅降低,请问 hao 分词器对这种情况有帮助吗?
首先诚挚地感谢每一位持续关注并使用 Hao分词器 的朋友。本人将持续投入,力图把 Hao 最好的中文分词器。 ### 此 Issue 的目的 - 让我更新动力继续做的更好 - 聆听各位朋友的声音,让 Hao分词器 变得更好 - 吸引更多的人参与贡献 ### 我们期待您能提供 在此提交一条评论,评论内容包括: - 您所在公司、学校或组织 - 您所在的城市 - 您的联系方式:微博、邮箱、微信、QQ、Facebook、Twitter - 可供体验的网址地址 您可以参考下面的样例来提供您的信息: >...
为什么的字会分在一起 
好尴尬,我es是7.17.6的~
插件版本v8.3.3 --- ``` { "analyzer": "hao_index_mode", "text": "0xFF0x030x420x270x010x430x320x010x460x640x5E0x5C0x3B0x010x360x290x010x050x330x010x030x220x010x630x3E0x010x270x340x350x5F0x3D0x010x400x2F0x010x3C0x430x010x610x3E0x010x370x140x010x3F0x360x3C0x2F0x350x380x060x2D0x010x040x460x060x490x310x010x280x230x1F0x220x2C0x2E0x190x460x410x0E0x340x1F0x1A0x650x3A0x0F0x250x350x1D0x200x1C0x070x330x010x230x4F0x3E0x240x650x650x3A0x2D0x010x3D0x370x490x090x4B0x170x480x4D0x540x470x1F0x410x410x0E0x300x0B0x370x320x450x330x010x4B0x010x010x4A0x330x330x510x360x010x4C0x5F0x240x0D0x380x010x5D0x010x010x2B0x270x010x290x440x010x2D0x340x010x5E0x3A0x010x3E0x2E0x010x080x3C0x010x0A0x340x010x010x2B0x010x440x240x010x670x3D0x010x0C0x3A0x010x250x330x330x000x310x3A0x310x300x330x330x330x330x330x2C0x320x3A0x310x330x330x330x530x330x330x2C0x330x3A0x320x330x010x010x0B0x010x330x2C0x340x3A0x330x390x370x360x350x330x330x2C0x370x3A0x340x330x330x330x330x330x330x2C0x310x300x3A0x360x300x330x010x0B0x010x330x2C0x310x340x3A0x310x300x300x320x330x330x330x330x330x2C0x310x350x3A0x360x380x330x330x330x330x330x2C0x380x3A0x320x330x010x010x0B0x010x330x2C0x330x310x3A0x320x330x280x310x1C0x010x330x2C0x380x310x3A0x320x330x280x310x1C0x010x330x2C0x320x300x300x300x3A0x320x310x390x010x650x630x010x330x2C0x370x310x3A0x310x3F0x650x5B0x010x330x2C0x370x320x3A0x310x010x010x010x010x330x2C0x370x330x3A0x310x010x010x010x010x330x2C0x390x310x3A0x310x5B0x150x330x010x330x2C0x390x320x3A0x310x010x0B0x0B0x010x330x2C0x390x330x3A0x310x010x0B0x0B0x010x330x000x310x310x340x000x340x330x000x330x000x320x320x000x010x010x630x000x000x310x2E0x30" } ``` 分词会直接卡住。同版本的ik没有这个问题
看好很多同学再问停用词功能。 非常抱歉,本插件**不支持**停用词配置以及远程停用词词库。 原因是`elasticsearch`本身就有停用词功能,中文的停用词更新也不频繁,就没有重复造轮子。 如有需要,请使用es原生提供的停用词功能。 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-tokenfilter.html ```console PUT /my-index-000001 { "settings": { "analysis": { "analyzer": { "default": { "tokenizer": "whitespace", "filter": [ "my_custom_stop_words_filter" ] } }, "filter": { "my_custom_stop_words_filter": { "type":...
# hao 分词器 - hao_index_mode ``` 关键词: 图书发行第一股 分词结果: 图书发行、图书、发行、第一股、第一 期望结果:图书发现、图书、发现、第一股、第一、股 ``` ``` 关键词:图书股 分词结果:图书、股 期望结果:图书股、图书、股 ``` 当前在 and 模式下,搜索“图书股”不能匹配“ 图书发行第一股” - hao_index_mode,autoWordLength=3 ``` 关键词: 图书发行第一股 分词结果: 图书发行、图书、发行、第一股、第一 期望结果: 图书发行、图书、发行、第一股、第一、股...