IbPinyinLib icon indicating copy to clipboard operation
IbPinyinLib copied to clipboard

关于多音字处理,能否增加自定义词典或其他方式?

Open tyoul29 opened this issue 7 months ago • 4 comments

在将一系列字典的 key 拼音首字母匹配,以供检索时,时常出现一些违反常识、却能匹配的案例,这带来两大困扰:一是常用多音字增加了很多无意义的匹配,二是多音字偏僻的或几乎废用的音也匹配经常让人摸不着头脑,如尿的 sui 这个音。 这带来很大困扰。 我一种简单笨拙的处理是:

  1. 用户自己为每种匹配方式维护一个 json 列表,如 dict/firstchar.json: [ ["mnx", "泌尿系"], ["cq", "重庆"], ["q", "奇 其 期"] ]
  2. 检测词典文件,如无则按默认多音字方式处理;如有将字符串按列表顺序遍历替换后再处理,手动过滤多音字。

这种方式不够智能、维护麻烦,唯一的优点是手动个人可控,也有其他更好的处理方式,我看到其他项目有对于这方面的处理,但实现原理不大知晓。

tyoul29 avatar Jul 16 '24 01:07 tyoul29