BallonsTranslator icon indicating copy to clipboard operation
BallonsTranslator copied to clipboard

[编码问题] 简体中文环境下,♡被错误的渲染为≡

Open PiDanShouRouZhouXD opened this issue 1 year ago • 5 comments

image image 如上图所示,♡被错误的渲染为≡。 经过查询,应当是UTF-8字符被错误的认为是GBK渲染造成的。 0xE2 0x99 0xA1 → 0xA1 0xAB 在命令行中可以正常显示: image

PiDanShouRouZhouXD avatar May 03 '24 18:05 PiDanShouRouZhouXD

出现这个问题的 OCR 是本地的还是你最新提交的?

dmMaze avatar May 04 '24 08:05 dmMaze

出现这个问题的 OCR 是本地的还是你最新提交的?

我进行了测试,使用本地OCR和彩云翻译也会出现相同的情况。

PiDanShouRouZhouXD avatar May 04 '24 08:05 PiDanShouRouZhouXD

我进行了测试,使用本地OCR和彩云翻译也会出现相同的情况。

你看下保存的项目文件里字符是不是也是错的,或者 https://github.com/dmMaze/BallonsTranslator/blob/a5c69501070cdd5af9efeaa6f79542067e2fa2d7/modules/ocr/mit48px.py#L190 看下 ocr 识别出的字符chid是不是对的,那个字典是 data/alphabet-all-v7.txt

qt 这部分应该默认就是 utf8,另外我也是 windows 简中也能正确识别渲染 ♡ 啊,你的代码编辑器没改全局编码吧

而且如果是 utf-8 被错误识别成了 gbk,其它 cjk 字符也会出错才对

dmMaze avatar May 05 '24 09:05 dmMaze

我进行了测试,使用本地OCR和彩云翻译也会出现相同的情况。

你看下保存的项目文件里字符是不是也是错的,或者

https://github.com/dmMaze/BallonsTranslator/blob/a5c69501070cdd5af9efeaa6f79542067e2fa2d7/modules/ocr/mit48px.py#L190

看下 ocr 识别出的字符chid是不是对的,那个字典是 data/alphabet-all-v7.txt qt 这部分应该默认就是 utf8,另外我也是 windows 简中也能正确识别渲染 ♡ 啊,你的代码编辑器没改全局编码吧

而且如果是 utf-8 被错误识别成了 gbk,其它 cjk 字符也会出错才对

我查看了一下工程,是完全正确的……我现在怀疑是我使用vscode的powershell启动程序导致的,有时间排查一下

PiDanShouRouZhouXD avatar May 07 '24 10:05 PiDanShouRouZhouXD

我也有這個問題呢,換別的字形就行了

Raiter123 avatar Jun 02 '24 01:06 Raiter123