analysis-pinyin 有关中英文混合时，英文会分词为单个字母

中英文混合时，默认会把应为单词分为一个个的字母。例如： "你好, sony"会分词为： "ni","hao","nhsony","s","o","n","y" 请问是否可以设置英文单词不拆分成独立字母?

Feb 20 '20 14:02 huge0612

有参数 keep_none_chinese_together 可以开启。

Feb 24 '20 01:02 medcl

@medcl 我试过开启了 keep_none_chinese=true 和 keep_none_chinese_together=true 这两个参数，还是会把英文分词成单个字母

Mar 04 '20 03:03 wjfjw

遇到了同样的问题，能否帮忙看看。开启了 keep_none_chinese=true 和 keep_none_chinese_together=true，还是会把英文分词成单个字母

May 28 '20 07:05 JamesYaoh

遇到了同样的问题，配置项已按照说明填写

   tokenizer: {
        my_pinyin: {
            type: 'pinyin',
            keep_first_letter: false,
            keep_separate_first_letter: false,
            keep_full_pinyin: true,
            keep_original: false,
            keep_none_chinese: true, 
            keep_none_chinese_together: true,
            none_chinese_pinyin_tokenize: true,
            limit_first_letter_length: 16,
            lowercase: true
        }
    }

andriod http 切分成了an, d, ri, o, d, h, t, t, p （字段中大部分数据都是中文，所以另加了 pinyin field，但也会出现英文）导致英文输入的时候搜索中有实际上不相关的结果出现

version: 6.7.0

May 29 '20 03:05 xiangweiweb

@huge0612 将none_chinese_pinyin_tokenize 设置为 false

Aug 29 '20 11:08 masteranthoneyd

none_chinese_pinyin_tokenize 参数的描述有歧义，启用这个参数，应该只对拼音进行分词，而英文不会被分词，输入 eg: DJ音乐家，得到 D, J 与描述相背。关闭这个的话，对拼音文本也不能分词了，不能支持输入拼音的搜索场景了。

Nov 13 '20 07:11 jayqian

遇到了同样的问题，配置项已按照说明填写
   tokenizer: {
        my_pinyin: {
            type: 'pinyin',
            keep_first_letter: false,
            keep_separate_first_letter: false,
            keep_full_pinyin: true,
            keep_original: false,
            keep_none_chinese: true, 
            keep_none_chinese_together: true,
            none_chinese_pinyin_tokenize: true,
            limit_first_letter_length: 16,
            lowercase: true
        }
    }
andriod http 切分成了an, d, ri, o, d, h, t, t, p （字段中大部分数据都是中文，所以另加了 pinyin field，但也会出现英文）导致英文输入的时候搜索中有实际上不相关的结果出现

version: 6.7.0

6.4.3 也是同样的问题。

Nov 20 '20 08:11 jayqian

最新版本依然有此问题。比如111刘德华mmm，结尾的mmm会被分词为3个m。

May 09 '22 15:05 lizhuangs