eSearch icon indicating copy to clipboard operation
eSearch copied to clipboard

离线ocr更新

Open xushengfeng opened this issue 3 years ago • 4 comments

目前的离线ocr使用PaddleOCR的c++部署和python部署(mac下)编译而成。 这样的方式有几个缺点

  • 首先是个人问题:无论是win下需要安装依赖,还是linux下的链接库,都让我这个只了解一些js语言的菜鸟感到汗颜。 我个人的能力不行衍生出不可把握的问题:原先使用离线ocr的逻辑是:保存框选区域到临时文件夹,使用编译好的二进制文件识别,输出结果并返回到eSearch,此过程耦合性较小,还会有许多奇怪的错误(比如 #6 中的路径配置错误)。
  • 再者是跨平台问题:Paddle的部署有些麻烦,对于新平台的申请(如mac M1 #30 ),离线ocr会较难部署。

综上,新的离线OCR需要主要使用js语言、与nodejs耦合度较高、跨平台更快捷、同时性能不会损失太大

幸好onnx让这一设想成为可能 设想使用onnxruntime,保证执行模型时的性能 会在周末时间开发,预计3周,可能其他功能的开发会推后 目前已实现:

  • [x] 检测文字 https://github.com/xushengfeng/eSearch-OCR/commit/7661a93b33f241eeec4b7d2835d71c6add10d71b https://github.com/xushengfeng/eSearch-OCR/commit/abfcbfc8d6e9de4a22a391eba6912f985c146368
  • [x] 方向分类 https://github.com/xushengfeng/eSearch-OCR/commit/37467c2297992589d0f6badaabad3017fd76eba9
  • [x] 识别文字 https://github.com/xushengfeng/eSearch-OCR/commit/3050dff2bcba9d17bf28cc54581d818e8ec80077
  • [x] 合并到软件
  • [x] 优化识别准确率
  • [x] 优化性能
    • [x] 分组识别 https://github.com/xushengfeng/eSearch-OCR/commit/6b5431a0f6f6b690e7c85934feaee69cb4073272
    • [x] GPU支持
  • [x] 版面识别 通过算法判断
  • [ ] 表格识别
  • [ ] latex

xushengfeng avatar Aug 06 '22 06:08 xushengfeng

非常强大,大佬,演示视频中的Dock栏是Windows软件吗?叫什么?😀

gloryandel avatar Dec 28 '22 10:12 gloryandel

非常强大,大佬,演示视频中的Dock栏是Windows软件吗?叫什么?grinning

是kde plasma的面板,kde主要提供linux桌面,不知windows有没有

xushengfeng avatar Dec 28 '22 14:12 xushengfeng

大佬,可以增加跨屏截图吗? 绘制截图区域的时候,canvas 绘制4个阴影区和1个透明区,在快速拖4条边或者4个角,会出现绘制卡顿问题;

litterye avatar Mar 06 '23 03:03 litterye

大佬,可以增加跨屏截图吗? 绘制截图区域的时候,canvas 绘制4个阴影区和1个透明区,在快速拖4条边或者4个角,会出现绘制卡顿问题;

跨屏截图太难了,现在没精力搞😔 卡顿是怎么样的,是整个软件卡还是拖动不跟手,屏幕分辨率是怎样的,能创建个新issue描述一下吗

xushengfeng avatar Mar 06 '23 09:03 xushengfeng