eSearch icon indicating copy to clipboard operation
eSearch copied to clipboard

能添加 ocr 离线的多语言吗 谢谢

Open xxm101010 opened this issue 2 years ago • 6 comments

xxm101010 avatar Jul 12 '22 19:07 xxm101010

意思是能识别除中英外的其他语言是吗?

xushengfeng avatar Jul 13 '22 03:07 xushengfeng

是的 日语韩语这种

xxm101010 avatar Jul 13 '22 15:07 xxm101010

我试一下,应该可以通过更改模型来使用

xushengfeng avatar Jul 14 '22 03:07 xushengfeng

本地ocr下载好怎么配置? 有配好的截图么?

15d23 avatar Jul 14 '22 03:07 15d23

本地ocr下载好怎么配置? 有配好的截图么?

下载好后他会弹出一个VS C++库的安装,安装完,在设置里选 离线OCR 后就可以直接使用了。

xushengfeng avatar Jul 14 '22 04:07 xushengfeng

  您好,您的邮件己收到,我将在阅读邮件后,尽快给您回复。

15d23 avatar Jul 14 '22 04:07 15d23

这个还有机会吗,飞桨似乎支持多语言识别,对我来说英语还可以打字出来,图片里的日韩语言就没办法了,能ocr会很方便 @xushengfeng

detiam avatar Jul 09 '23 11:07 detiam

  您好,您的邮件己收到,我将在阅读邮件后,尽快给您回复。

15d23 avatar Jul 09 '23 11:07 15d23

这个还有机会吗,飞桨似乎支持多语言识别,对我来说英语还可以打字出来,图片里的日韩语言就没办法了,能ocr会很方便 @xushengfeng

这个软件层面已支持,只需要把paddle的模型转为onnx,很快就推出

xushengfeng avatar Jul 09 '23 11:07 xushengfeng

https://esearch-app.netlify.app/ocr.html 模型下载

xushengfeng avatar Jul 09 '23 16:07 xushengfeng

https://esearch-app.netlify.app/ocr.html 模型下载

@xushengfeng

humm 如果我直接从压缩包拖动到那个位置会: image config.json里就是默认的模型

如果我解压出来再把那两个文件拖进去(比如 chinese_cht_dict.txtchinese_cht_rec.onnx)会: image 似乎位置错了,用这个模型会没反应

建议能手动修改这三个文件的路径?我直接改config.json再改其他设置,这三个文件路径会恢复到刚添加的时候,不过刚改完config.json的时候新添加的模型能用了。

另外最新版本(1.10.1-beta.6)ocr扫描完不会自动弹出那个主界面,是bug吗

detiam avatar Jul 09 '23 20:07 detiam

发现esearch关闭的时候修改config.json可以保存设置,三个文件位置都要绝对路径,高级-位置信息-OCR 目录好像没什么用。

https://esearch-app.netlify.app/ocr.html 模型下载

另外这里面的英文模型好像识别不出空格

detiam avatar Jul 09 '23 21:07 detiam

是所有下载的模型都不识别空格 我的配置:

"离线OCR": [
  [
    "默认(中英)",
    "默认/ppocr_det.onnx",
    "默认/ppocr_rec.onnx",
    "默认/ppocr_keys_v1.txt"
  ],
  [
    "繁体中文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_rec.onnx",
    "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_dict.txt"
  ],
  [
    "日文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/japan/japan_rec.onnx",
    "/home/detian/.config/eSearch/ocr/japan/japan_dict.txt"
  ],
  [
    "韩文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/korean/korean_rec.onnx",
    "/home/detian/.config/eSearch/ocr/korean/korean_dict.txt"
  ],
  [
    "英文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/en/en_PP-OCRv3_rec_infer.onnx",
    "/home/detian/.config/eSearch/ocr/en/en_dict.txt"
  ]
],

识别效果:

图片


忽然怀念锤

Screenshot_2023-07-10-05-20-51-744_大爆炸

detiam avatar Jul 09 '23 21:07 detiam

@detiam 添加模型是将det和字典多选并一起拖放 其他模型的空格识别正在调试 同页面混合语言的识别有方案,但应该没那么快实现

xushengfeng avatar Jul 10 '23 03:07 xushengfeng

@xushengfeng 辛苦大大了 不过那些其他模型语言包里大部分没有det文件啊,只有 *_rec.onnx*_dict.txt,只拖这两个文件不行。

detiam avatar Jul 10 '23 07:07 detiam

@detiam 你试一下默认模型能否运行正常,相对路径应该也是正常运行的 因为det检测文字模型是共用的,只有rec和字典的话设置程序是自动使用默认det模型的

xushengfeng avatar Jul 10 '23 08:07 xushengfeng

@detiam 由于部分字典末尾多了换行,导致空格字符失效,已在代码修复 https://github.com/xushengfeng/eSearch-OCR/commit/f3c9efee5f9d2d37cd5b77fc79cdaaef09144b75 ,你可以单独删除字典后面多余的换行(kate保存后可能自动会加) 我还发现模型对于非字母语言的空格识别率不行,正在优化

xushengfeng avatar Jul 10 '23 08:07 xushengfeng

如果我解压出来再把那两个文件拖进去(比如 chinese_cht_dict.txtchinese_cht_rec.onnx)会: image 似乎位置错了,用这个模型会没反应

@xushengfeng 我发现这个是怎么回事了,这一行好像是直接在路径里判断包不包含det?路径里我的用户名 detiam 似乎导致判断出错了。

@detiam 你试一下默认模型能否运行正常,相对路径应该也是正常运行的 因为det检测文字模型是共用的,只有rec和字典的话设置程序是自动使用默认det模型的

试了下用相对路径

[
  "繁体中文",
  "默认/ppocr_det.onnx",
  "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_rec.onnx",
  "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_dict.txt"
],

会一直卡在扫描

detiam avatar Jul 10 '23 10:07 detiam

@detiam 在代码里修复了 be74881f0ade548e3a02b8eb1d789a1fee33a5b3 1601dd828b8d5bc1a6880b043be4a28bc29af8da

xushengfeng avatar Jul 10 '23 12:07 xushengfeng

  您好,您的邮件己收到,我将在阅读邮件后,尽快给您回复。

15d23 avatar Dec 10 '23 01:12 15d23