analysis-pinyin icon indicating copy to clipboard operation
analysis-pinyin copied to clipboard

有关中英文混合时,英文会分词为单个字母

Open huge0612 opened this issue 5 years ago • 8 comments

中英文混合时,默认会把应为单词分为一个个的字母。例如: "你好, sony"会分词为: "ni","hao","nhsony","s","o","n","y" 请问是否可以设置英文单词不拆分成独立字母?

huge0612 avatar Feb 20 '20 14:02 huge0612

有参数 keep_none_chinese_together 可以开启。

medcl avatar Feb 24 '20 01:02 medcl

@medcl 我试过开启了 keep_none_chinese=truekeep_none_chinese_together=true 这两个参数,还是会把英文分词成单个字母

wjfjw avatar Mar 04 '20 03:03 wjfjw

遇到了同样的问题,能否帮忙看看。开启了 keep_none_chinese=true 和 keep_none_chinese_together=true,还是会把英文分词成单个字母

JamesYaoh avatar May 28 '20 07:05 JamesYaoh

遇到了同样的问题,配置项已按照说明填写

   tokenizer: {
        my_pinyin: {
            type: 'pinyin',
            keep_first_letter: false,
            keep_separate_first_letter: false,
            keep_full_pinyin: true,
            keep_original: false,
            keep_none_chinese: true, 
            keep_none_chinese_together: true,
            none_chinese_pinyin_tokenize: true,
            limit_first_letter_length: 16,
            lowercase: true
        }
    }

andriod http 切分成了an, d, ri, o, d, h, t, t, p (字段中大部分数据都是中文,所以另加了 pinyin field,但也会出现英文) 导致英文输入的时候搜索中有实际上不相关的结果出现

version: 6.7.0

xiangweiweb avatar May 29 '20 03:05 xiangweiweb

@huge0612 将none_chinese_pinyin_tokenize 设置为 false

masteranthoneyd avatar Aug 29 '20 11:08 masteranthoneyd

none_chinese_pinyin_tokenize 参数的描述有歧义,启用这个参数,应该只对拼音进行分词,而英文不会被分词,输入 eg: DJ音乐家, 得到 D, J 与描述相背。 关闭这个的话,对拼音文本也不能分词了,不能支持输入拼音的搜索场景了。

jayqian avatar Nov 13 '20 07:11 jayqian

遇到了同样的问题,配置项已按照说明填写

   tokenizer: {
        my_pinyin: {
            type: 'pinyin',
            keep_first_letter: false,
            keep_separate_first_letter: false,
            keep_full_pinyin: true,
            keep_original: false,
            keep_none_chinese: true, 
            keep_none_chinese_together: true,
            none_chinese_pinyin_tokenize: true,
            limit_first_letter_length: 16,
            lowercase: true
        }
    }

andriod http 切分成了an, d, ri, o, d, h, t, t, p (字段中大部分数据都是中文,所以另加了 pinyin field,但也会出现英文) 导致英文输入的时候搜索中有实际上不相关的结果出现

version: 6.7.0

6.4.3 也是同样的问题。

jayqian avatar Nov 20 '20 08:11 jayqian

最新版本依然有此问题。比如111刘德华mmm,结尾的mmm会被分词为3个m。

lizhuangs avatar May 09 '22 15:05 lizhuangs