rime-ice
rime-ice copied to clipboard
【讨论】如果要加入新词热词词典,怎么加入,如何正规的获取到
从以往的经验看,未经时间筛选、沉淀过的新词、热词等流行词汇不宜加入常规词典。原因有二:
- 含有大量不合书面语法的错形词,错音词,事件之外的人无法理解的字的组合,如之前 issue 提到的所谓「砍手机」(流行事件),「答辩」(此处指大便的错形迷因),「红红晃晃呼呼」(hhhhh);
- 词汇时效性高,生命力短,过时后,对于大部分人它们再次变成错词或无逻辑的字的组合。堆积过多,就容易重码。
但输入新词、热词确实是许多普通用户的需求。
假如说,以内置,或者外部 repo 补丁的方式加入一个热词词典,按需启用。但有限制条件
- 大众流行,而不是某个圈子内流行,例如 ACG 网站、数码科技爱好者网站热搜就不太适合;而政府报告、央视新闻热点就比较大众一些;
- 简体中文语言环境;一些舶来词、多语言混杂词最好排除在外
- 来源公有领域,或者像维基百科那样,有明确开源协议(维基应当为 CC-BY-SA)的。比如搜狗细胞词库就不适合放在这里,它版权归属为搜狗公司所有,搜索到当时 fcitx 有相关讨论,并且搜狗公司曾经以词库归属问题和其他公司有过数次纠纷。
我的一些设想:
- 这个词库默认不开启,不影响现有的用户。
- 这份词库要定时清除(如 3 天或者 7 天),或者滚动更新,防止一些过时的迷因词堆积,造成高重码率
- 这份词库注音质量可以降低标准,即不注音,让 rime 自动注音
提在这里是觉得,这是一个很大众的需求,应当已经有很多轮子了。
如果热词词库里的词条生命周期只有2-7天,我觉得可以放低词条收录的门槛,毕竟筛选受众广泛的热词,这个不太好程序化控制 我自己方案里有热词词库,里面大部分是 和明星事件相关的,我看一些热搜榜里的差不多也是这样,如果排除这些词条,可收录的热词就不会很多了。
讲到这个 2 - 7 天,大概是凭经验举个例子。但要是真是词库,感觉「重新部署」这个操作挺繁琐耗时间的,部署的时候还不能输入
讲不定搞成词典包分发,CI 生成下,应该可以不用重新部署。直接替换下载词典包就行。
看语料来源吧,微博这种娱乐圈词条的比较多,百度热榜、微信公众号热榜、头条热搜、这种我看都挺合适,民生热点、国际国内时事主题的多一些,这种就贴近生活,流传度广一些。
主要是想找找轮子,这种爬热搜、分词整理应当有好用的轮子吧,大概率不用去自己研究,只不过不了解这方面,找起来像无头苍蝇。