analysis-pinyin
analysis-pinyin copied to clipboard
有关中英文混合时,英文会分词为单个字母
中英文混合时,默认会把应为单词分为一个个的字母。例如: "你好, sony"会分词为: "ni","hao","nhsony","s","o","n","y" 请问是否可以设置英文单词不拆分成独立字母?
有参数 keep_none_chinese_together 可以开启。
@medcl 我试过开启了 keep_none_chinese=true 和 keep_none_chinese_together=true 这两个参数,还是会把英文分词成单个字母
遇到了同样的问题,能否帮忙看看。开启了 keep_none_chinese=true 和 keep_none_chinese_together=true,还是会把英文分词成单个字母
遇到了同样的问题,配置项已按照说明填写
tokenizer: {
my_pinyin: {
type: 'pinyin',
keep_first_letter: false,
keep_separate_first_letter: false,
keep_full_pinyin: true,
keep_original: false,
keep_none_chinese: true,
keep_none_chinese_together: true,
none_chinese_pinyin_tokenize: true,
limit_first_letter_length: 16,
lowercase: true
}
}
andriod http 切分成了an, d, ri, o, d, h, t, t, p (字段中大部分数据都是中文,所以另加了 pinyin field,但也会出现英文) 导致英文输入的时候搜索中有实际上不相关的结果出现
version: 6.7.0
@huge0612 将none_chinese_pinyin_tokenize 设置为 false
none_chinese_pinyin_tokenize 参数的描述有歧义,启用这个参数,应该只对拼音进行分词,而英文不会被分词,输入 eg: DJ音乐家, 得到 D, J 与描述相背。 关闭这个的话,对拼音文本也不能分词了,不能支持输入拼音的搜索场景了。
遇到了同样的问题,配置项已按照说明填写
tokenizer: { my_pinyin: { type: 'pinyin', keep_first_letter: false, keep_separate_first_letter: false, keep_full_pinyin: true, keep_original: false, keep_none_chinese: true, keep_none_chinese_together: true, none_chinese_pinyin_tokenize: true, limit_first_letter_length: 16, lowercase: true } }andriod http 切分成了an, d, ri, o, d, h, t, t, p (字段中大部分数据都是中文,所以另加了 pinyin field,但也会出现英文) 导致英文输入的时候搜索中有实际上不相关的结果出现
version: 6.7.0
6.4.3 也是同样的问题。
最新版本依然有此问题。比如111刘德华mmm,结尾的mmm会被分词为3个m。