imewlconverter icon indicating copy to clipboard operation
imewlconverter copied to clipboard

深蓝v2.9.0转换华宇拼音V7.2.0.213中sys.uwl出现乱码:

Open wwzrh opened this issue 2 years ago • 15 comments

深蓝imewlconverter-v2.9.0转换华宇拼音HuayuPY-V7.2.0.213中sys.uwl出现乱码:

ŷ qi 100000 ŷţ共享交换平台技术 gong'xiang'jiao'huan'ping'tai'ji'shu 100000 ŷ˷˗͵黔东南苗族侗族自 qian'dong'nan'miao'zu'dong'zu'zi 100000 ƈ guo 100000 ƨˆ bu'de 100000 ƨ宝 qi'ruan 100000 ȵ zhai 100000 ȵŨ光电通双色激光打 guang'dian'tong'shuang'se'ji'guang'da 100000 ȵŨ立思辰红黑激光打 li'si'chen'hong'hei'ji'guang'da 100000 Ɂ pao 100000 Ɂ fang 100000 Ɂ pai 100000 Ɂ国 jia'he 100000 ̒ tan 100000 ̧Ì你怎 zen'me'bu'shuo 100000 ̧怎么不说话 miu'te'zen'me'bu'shuo 100000 㐒 hia 100000 一 ling 100000 一 zhang 100000 一 chi 100000 一 dan 100000 一 gua 100000 一 yan 100000 一 gen 100000 一 cao 100000 一 fu 100000 一 hui 100000 一一 yi'yi 100000 一一一 yi'yi'yi 100000 一一列举 yi'yi'lie'ju 100000 / @studyzy 请查查 紫光拼音词库.uwl-->华宇紫光拼音 大部分词都正常,一小部分乱码。 加密问题?还是UTF-8问题(不太像)? 发现3779行不正常的行。

wwzrh avatar Oct 06 '21 01:10 wwzrh

调试了多次、很久,进展不大,确认是目前的解码算法问题,遇到拼音组和汉字数(计入标点)不同就会出错。 华宇拼音的源码在2014年曾经开源,已尝试可用。并且截至最新的HuayuPY-V7.3.0.275,词库版本没变。可能要参考或调用那边源码重写这边,源码协议似乎兼容。

wl_tool.zip 从华宇拼音源码编译的词库转换工具 sys.uwl txt.zip 导出的txt

yfdyh000 avatar Apr 04 '22 02:04 yfdyh000

@yfdyh000 很好,HuayuPY-V7.3.0.275的sys.uwl完整码表。

不知wl_tool这转换工具怎用呢?能具体指导一下吗?谢!

wwzrh avatar Apr 08 '22 03:04 wwzrh

cmd中执行,有使用说明。但编译出的版本总乱码,偶然某次突然正常了,就是我上传的那个版本,但现在运行它又是乱码。 之前漏掉依赖的.ime(dll),补上,但无法保证运行正常(不乱码)。 wl_tool.zip

yfdyh000 avatar Apr 08 '22 04:04 yfdyh000

无标题 @yfdyh000

wwzrh avatar Apr 15 '22 13:04 wwzrh

我也不清楚为什么,试过很多次,也遇到这个未知原因乱码,但偶然成功了一次,之后就又不行了😣

2022年4月15日 21:58:42 wwzrh @.***>:

[https://user-images.githubusercontent.com/12047479/163579739-6071d6fa-068a-41e9-b5ca-a9ab69708950.png][无标题][https://user-images.githubusercontent.com/12047479/163579739-6071d6fa-068a-41e9-b5ca-a9ab69708950.png] @yfdyh000[https://github.com/yfdyh000]

— Reply to this email directly, view it on GitHub[https://github.com/studyzy/imewlconverter/issues/195#issuecomment-1100125604], or unsubscribe[https://github.com/notifications/unsubscribe-auth/AANQDE62DNF73WHAFW5NIKTVFFYY7ANCNFSM5FNGEEUA]. You are receiving this because you were mentioned.[追踪用图像][https://github.com/notifications/beacon/AANQDEZITUVUFHYE4RFS7N3VFFYY7A5CNFSM5FNGEEUKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOIGJJLJA.gif]

yfdyh000 avatar Apr 15 '22 14:04 yfdyh000

@yfdyh000 尝试过在安装v6.9环境下转换吗?

wwzrh avatar Apr 15 '22 14:04 wwzrh

这个修改版“优化编码能力”转换还可以: https://github.com/tumuyan/imewlconverter/releases/tag/20220202

wwzrh avatar May 04 '22 12:05 wwzrh

这个修改版“优化编码能力”转换还可以: https://github.com/tumuyan/imewlconverter/releases/tag/20220202

master包含这个,用这个转换是不全的,乱码出错的部分被过滤掉了。

yfdyh000 avatar May 04 '22 13:05 yfdyh000

是的,也转换一些乱码和一些不规则的词语拼音了: ピ kie 263439 安 tong 2976 我们 men'sa 5528 ……等等。

wwzrh avatar May 04 '22 13:05 wwzrh

修好了,等合并 pr,可以先试试。 深蓝词库转换.zip

nopdan avatar May 28 '22 06:05 nopdan

@cxcn 词语不乱码了,拼音有了,但词频废了(试试转手心输入法或Rime输入法)。

wwzrh avatar May 30 '22 07:05 wwzrh

@cxcn 词语不乱码了,拼音有了,但词频废了(试试转手心输入法或Rime输入法)。

收到,我这不会 c# 瞎改给改废了。。

nopdan avatar May 30 '22 08:05 nopdan

@cxcn 词语不乱码了,拼音有了,但词频废了(试试转手心输入法或Rime输入法)。 深蓝词库转换.zip 另外我写了一个新的转换工具也可以试试, 单单的词库转换工具.zip

nopdan avatar May 30 '22 09:05 nopdan

辛苦,@cxcn 你的词频跟@studyzy 的不一样噢,华宇原宥的吗?原版的好一些吧

wwzrh avatar May 30 '22 12:05 wwzrh

辛苦,@cxcn 你的词频跟@studyzy 的不一样噢,华宇原宥的吗?原版的好一些吧

新的词频没有问题。

nopdan avatar May 30 '22 15:05 nopdan