eSearch 能添加 ocr 离线的多语言吗谢谢

Jul 12 '22 19:07 xxm101010

意思是能识别除中英外的其他语言是吗？

Jul 13 '22 03:07 xushengfeng

是的日语韩语这种

Jul 13 '22 15:07 xxm101010

我试一下，应该可以通过更改模型来使用

Jul 14 '22 03:07 xushengfeng

本地ocr下载好怎么配置? 有配好的截图么?

Jul 14 '22 03:07 15d23

本地ocr下载好怎么配置? 有配好的截图么?

下载好后他会弹出一个VS C++库的安装，安装完，在设置里选离线OCR 后就可以直接使用了。

Jul 14 '22 04:07 xushengfeng

您好，您的邮件己收到，我将在阅读邮件后，尽快给您回复。

Jul 14 '22 04:07 15d23

这个还有机会吗，飞桨似乎支持多语言识别，对我来说英语还可以打字出来，图片里的日韩语言就没办法了，能ocr会很方便 @xushengfeng

Jul 09 '23 11:07 detiam

您好，您的邮件己收到，我将在阅读邮件后，尽快给您回复。

Jul 09 '23 11:07 15d23

这个还有机会吗，飞桨似乎支持多语言识别，对我来说英语还可以打字出来，图片里的日韩语言就没办法了，能ocr会很方便 @xushengfeng

这个软件层面已支持，只需要把paddle的模型转为onnx，很快就推出

Jul 09 '23 11:07 xushengfeng

https://esearch-app.netlify.app/ocr.html 模型下载

Jul 09 '23 16:07 xushengfeng

https://esearch-app.netlify.app/ocr.html 模型下载

@xushengfeng

humm 如果我直接从压缩包拖动到那个位置会： config.json里就是默认的模型

如果我解压出来再把那两个文件拖进去（比如 chinese_cht_dict.txt 和 chinese_cht_rec.onnx）会：似乎位置错了，用这个模型会没反应

建议能手动修改这三个文件的路径？我直接改config.json再改其他设置，这三个文件路径会恢复到刚添加的时候，不过刚改完config.json的时候新添加的模型能用了。

另外最新版本（1.10.1-beta.6）ocr扫描完不会自动弹出那个主界面，是bug吗

Jul 09 '23 20:07 detiam

发现esearch关闭的时候修改config.json可以保存设置，三个文件位置都要绝对路径，高级-位置信息-OCR 目录好像没什么用。

https://esearch-app.netlify.app/ocr.html 模型下载

另外这里面的英文模型好像识别不出空格

Jul 09 '23 21:07 detiam

是所有下载的模型都不识别空格我的配置：

"离线OCR": [
  [
    "默认（中英）",
    "默认/ppocr_det.onnx",
    "默认/ppocr_rec.onnx",
    "默认/ppocr_keys_v1.txt"
  ],
  [
    "繁体中文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_rec.onnx",
    "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_dict.txt"
  ],
  [
    "日文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/japan/japan_rec.onnx",
    "/home/detian/.config/eSearch/ocr/japan/japan_dict.txt"
  ],
  [
    "韩文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/korean/korean_rec.onnx",
    "/home/detian/.config/eSearch/ocr/korean/korean_dict.txt"
  ],
  [
    "英文",
    "/usr/lib/esearch/ocr/ppocr/默认/ppocr_det.onnx",
    "/home/detian/.config/eSearch/ocr/en/en_PP-OCRv3_rec_infer.onnx",
    "/home/detian/.config/eSearch/ocr/en/en_dict.txt"
  ]
],

识别效果：

忽然怀念锤

Jul 09 '23 21:07 detiam

@detiam 添加模型是将det和字典多选并一起拖放其他模型的空格识别正在调试同页面混合语言的识别有方案，但应该没那么快实现

Jul 10 '23 03:07 xushengfeng

@xushengfeng 辛苦大大了不过那些其他模型语言包里大部分没有det文件啊，只有 *_rec.onnx 和 *_dict.txt，只拖这两个文件不行。

Jul 10 '23 07:07 detiam

@detiam 你试一下默认模型能否运行正常，相对路径应该也是正常运行的因为det检测文字模型是共用的，只有rec和字典的话设置程序是自动使用默认det模型的

Jul 10 '23 08:07 xushengfeng

@detiam 由于部分字典末尾多了换行，导致空格字符失效，已在代码修复 https://github.com/xushengfeng/eSearch-OCR/commit/f3c9efee5f9d2d37cd5b77fc79cdaaef09144b75 ，你可以单独删除字典后面多余的换行（kate保存后可能自动会加）我还发现模型对于非字母语言的空格识别率不行，正在优化

Jul 10 '23 08:07 xushengfeng

如果我解压出来再把那两个文件拖进去（比如 chinese_cht_dict.txt 和 chinese_cht_rec.onnx）会：似乎位置错了，用这个模型会没反应

@xushengfeng 我发现这个是怎么回事了，这一行好像是直接在路径里判断包不包含det？路径里我的用户名 detiam 似乎导致判断出错了。

@detiam 你试一下默认模型能否运行正常，相对路径应该也是正常运行的因为det检测文字模型是共用的，只有rec和字典的话设置程序是自动使用默认det模型的

试了下用相对路径

[
  "繁体中文",
  "默认/ppocr_det.onnx",
  "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_rec.onnx",
  "/home/detian/.config/eSearch/ocr/tchinese/chinese_cht_dict.txt"
],

会一直卡在扫描

Jul 10 '23 10:07 detiam

@detiam 在代码里修复了 be74881f0ade548e3a02b8eb1d789a1fee33a5b3 1601dd828b8d5bc1a6880b043be4a28bc29af8da

Jul 10 '23 12:07 xushengfeng

您好，您的邮件己收到，我将在阅读邮件后，尽快给您回复。

Dec 10 '23 01:12 15d23

能添加 ocr 离线的多语言吗 谢谢

能添加 ocr 离线的多语言吗谢谢