rime-ice icon indicating copy to clipboard operation
rime-ice copied to clipboard

librime 1.11.0 的联想功能凸显了腾讯词库的质量问题

Open dyphire opened this issue 2 years ago • 21 comments

如题,在联想新特性下,腾讯词库的质量问题被放大了 IMG_3464 理想情况肯定是整理腾讯词库清除广告词之类的无用词,但腾讯词库词汇数量庞大工作量太大了,可能除了慢慢整理没有什么好的办法

dyphire avatar Apr 16 '24 01:04 dyphire

这个联想功能怎么在雾凇上面开启啊,有没有对应的配置,参考一下

expoli avatar Apr 16 '24 04:04 expoli

这个联想功能怎么在雾凇上面开启啊,有没有对应的配置,参考一下

不需要手动开启,librime 1.11.0 自带的特性,更新 rime 到最新版就可以了,桌面端去对应 github 仓库下载夜间构建版,ios 下载最新版的仓输入法

dyphire avatar Apr 16 '24 04:04 dyphire

这个自动联想功能,得有一个开关和联想字符数的控制开关就好了。 联想的词条字符数太多,感觉反而不是期望的。 我这边 Mac 端在非完全编码的情况下,联想是这样的 image

boomker avatar Apr 16 '24 05:04 boomker

字符数是说?写在 librime 里面的 4 个音节,

开关要 DIY 一下,不过不太完美,有歧义,大体能用:

if (env.engine.context:get_option( 'completion' ) and not text:find( '%a' ) and type == 'completion') then
    -- do nothing
else
   yield( cand )
end
switches:
- name: completion
  reset: 0
  states: [补, 关]

mirtlecn avatar Apr 16 '24 05:04 mirtlecn

@mirtlecn

字符数是说?

就是候选项 text属性的长度。比如,千与千寻动漫 字符长度为6

貌似这样写:

if (env.engine.context:get_option( 'completion' ) and not text:find( '%a' ) and type == 'completion') then
    -- do nothing
else
   yield( cand )
end

效果会是 只有在完全编码状态下,才会出现候选词条。所有非完全编码产生的词条都不会出现

boomker avatar Apr 16 '24 05:04 boomker

那就在 lua 里面判断一下 utf8.len(cand.text) 好了。

mirtlecn avatar Apr 16 '24 05:04 mirtlecn

那就在 lua 里面判断一下 utf8.len(cand.text) 好了。

对的, 我自己方案里长词优选功能,加了这个判断,现在效果是这样的: image  

boomker avatar Apr 16 '24 06:04 boomker

那么写在 script_translator 里面是没问题的,补全词是正常的,但多音节补全词被过滤。

你的小鹤大概是 table_translator 吗,可能逻辑不一样。

mirtlecn avatar Apr 16 '24 06:04 mirtlecn

我这边 Mac 端在非完全编码的情况下,联想是这样的

我的 macOS 12.7 安装夜间构建版后候选界面不显示,只有最后的 0.16.2 发布版可正常使用,不知道为什么。试了好几次卸载后重启再全新安装也是一样,但其他人好像都能正常使用,搞不懂

编辑:找到同样的问题了,原来有人提过 https://github.com/rime/squirrel/issues/753 ,看来是 13.0 以前的系统都不能用了,只能使用 0.16.2

dyphire avatar Apr 16 '24 06:04 dyphire

我这边用的是 1.11.0版本的 Librime, Intel 老款 MBP 装的黑苹果。 输入法界面目前没有出现异常问题

boomker avatar Apr 16 '24 12:04 boomker

粗略看了下 tencent.dict.yaml 里面的广告词和黄色相关等垃圾词好多啊,想要清理干净估计得整 AI 训练模型才能处理了 在个人修改版中禁用腾讯向量大词库:https://github.com/dyphire/rime-ice/commit/d1200ed18a68c688dd5f23946d4708e05c1c5c7b ,转用质量可靠的搜狗词库(存在版权问题,主仓库肯定加不了) image

dyphire avatar Apr 16 '24 13:04 dyphire

垃圾词普遍是包含了某一关键词的,可以有空了清理一个关键词,比如包含「在线观看」的。 可以直接 PR 或反馈到 #666 里。 随着时间的流逝和 @iDvel 的努力,垃圾词就慢慢没有了。

iDvel avatar Apr 16 '24 16:04 iDvel

如题,在联想新特性下,腾讯词库的质量问题被放大了 IMG_3464 理想情况肯定是整理腾讯词库清除广告词之类的无用词,但腾讯词库词汇数量庞大工作量太大了,可能除了慢慢整理没有什么好的办法

你这个手机上的皮肤好好看,能分享一下吗?

Chengxcy avatar Apr 16 '24 18:04 Chengxcy

你这个手机上的皮肤好好看,能分享一下吗?

也是用的仓吗?我也是在别人分享的皮肤上改了改 护眼绿改-仓输入法皮肤及字体.zip 导入键盘布局别忘了设置下字体,不然图标显示不全

dyphire avatar Apr 17 '24 00:04 dyphire

你这个手机上的皮肤好好看,能分享一下吗?

也是用的仓吗?我也是在别人分享的皮肤上改了改 护眼绿改-仓输入法皮肤及字体.zip 导入键盘布局别忘了设置下字体,不然图标显示不全

好的,收到,谢谢指导。主题皮肤很好看,感谢感谢🙏

Chengxcy avatar Apr 17 '24 01:04 Chengxcy

https://github.com/iDvel/rime-ice/pull/815

wxyzh avatar Apr 17 '24 09:04 wxyzh

这个联想功能怎么在雾凇上面开启啊,有没有对应的配置,参考一下

不需要手动开启,librime 1.11.0 自带的特性,更新 rime 到最新版就可以了,桌面端去对应 github 仓库下载夜间构建版,ios 下载最新版的仓输入法

我下载了最新的仓输入法,版本号1.11.0,没有联想啊,咋回事儿?

KevinLeung007 avatar Apr 19 '24 08:04 KevinLeung007

这个联想功能怎么在雾凇上面开启啊,有没有对应的配置,参考一下

不需要手动开启,librime 1.11.0 自带的特性,更新 rime 到最新版就可以了,桌面端去对应 github 仓库下载夜间构建版,ios 下载最新版的仓输入法

我下载了最新的仓输入法,版本号1.11.0,没有联想啊,咋回事儿?

「仓」librime 版本已经回退到 1.10.0 了,原因是 1.11.0 开启 enable_correction 选项下,引擎会 crash。#589

imfuxiao avatar Apr 19 '24 09:04 imfuxiao

降低腾讯词库词频到 90 就没有了

colorsakura avatar Apr 21 '24 01:04 colorsakura

这个联想功能怎么在雾凇上面开启啊,有没有对应的配置,参考一下

不需要手动开启,librime 1.11.0 自带的特性,更新 rime 到最新版就可以了,桌面端去对应 github 仓库下载夜间构建版,ios 下载最新版的仓输入法

我下载了最新的仓输入法,版本号1.11.0,没有联想啊,咋回事儿?

「仓」librime 版本已经回退到 1.10.0 了,原因是 1.11.0 开启 enable_correction 选项下,引擎会 crash。#589

那是要等下一版仓输入法?

KevinLeung007 avatar Apr 23 '24 03:04 KevinLeung007

这个联想功能怎么在雾凇上面开启啊,有没有对应的配置,参考一下

不需要手动开启,librime 1.11.0 自带的特性,更新 rime 到最新版就可以了,桌面端去对应 github 仓库下载夜间构建版,ios 下载最新版的仓输入法

我下载了最新的仓输入法,版本号1.11.0,没有联想啊,咋回事儿?

「仓」librime 版本已经回退到 1.10.0 了,原因是 1.11.0 开启 enable_correction 选项下,引擎会 crash。#589

那是要等下一版仓输入法?

现在还没确定 enable_correction 的问题点在哪,等修复了就会升级 librime。

imfuxiao avatar Apr 23 '24 03:04 imfuxiao