tenlee

Results 6 comments of tenlee

> 这个问题太严重了,我还是决定换分词插件 可以试试这个分词器 https://github.com/tenlee2012/elasticsearch-analysis-hao

> 楼主坚持更新一年以上再用😁 马上一年了

参考HanLP的`Aho Corasick自动机结合DoubleArrayTrie`的方式,所以在匹配上比IK快,但是在词库初始化和热更新的时候比较慢,看词库大小,目前的词库大小3s以内,完全可以接受。 文章:http://www.hankcs.com/program/algorithm/aho-corasick-double-array-trie.html 源码:https://github.com/hankcs/AhoCorasickDoubleArrayTrie

你应该是配置了 **autoWordLength** 参数,不建议使用该参数。 > autoWordLength | 根据空格标点符号字母数字等分隔后的汉字文本长度小于autoWordLength会自动识别为一个词语。 默认-1不开启,>=2视为开启 同时,本插件不支持停用词配置以及远程停用词词库。 如有需要,请使用es原生提供的停用词功能。 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-tokenfilter.html PUT /my-index-000001 { "settings": { "analysis": { "analyzer": { "default": { "tokenizer": "whitespace", "filter": [ "my_custom_stop_words_filter" ] } },...