analysis-pinyin icon indicating copy to clipboard operation
analysis-pinyin copied to clipboard

liyanan => tokenizer wrong

Open lynquantumman opened this issue 5 years ago • 2 comments

liyanan => li ya nan liyanan => li yan an

lynquantumman avatar Dec 16 '19 06:12 lynquantumman

目前只能出一个结果。毕竟这俩你都不能算错。我感觉可以有这几种方法:1 : 人工切分查两次 2: 修改源码冗余编码,不过冗余编码以后不能使用match_phrase了倒是真的

buptcjj avatar Dec 17 '19 13:12 buptcjj

目前只能出一个结果。毕竟这俩你都不能算错。我感觉可以有这几种方法:1 : 人工切分查两次 2: 修改源码冗余编码,不过冗余编码以后不能使用match_phrase了倒是真的

那我想问一下,假设拼音特意采用空格分隔,如:ying lun mi an,通过拼音分词能分成ying lun mi an,而不是现在的ying lun mian把mi和an黏在了一块

shiwl0329 avatar Jul 07 '20 02:07 shiwl0329