Tong Li
Tong Li
udpate layout_dict_path
udpate layout_dict_path
有CentOS的linux但是我没有测试过,请到action下载 https://github.com/litongjava/tools-ocr/actions/runs/6983502464
我接触过ocr识别的案例,但是我不知道1.deepspeech2的paddle模型是否支持转为onnx模型 2.如何将语音数据转为张量输入到模型中 3.如何将模型的输入转为我需要的格式 在djl中张量是NDList 大神能指点一下上面3个问题吗? 此外我发现你的ocr_sdk有一个小问题 虽然在载入模型时指定运行引擎为onnx-engine但是时间运行使用的是pytorch-engine。愿意是translator中的一些方法用到了pytorch引擎。 1.但是对应输入和输出定位处理都是张量运算为什么会依赖pytorch呢? 2.我通过环境变量指定引擎为onnx-engine但是运行时报错 3.既然ocr的模型格式是onnx,能否再不依赖pytorch-engine的情况下运行呢?具体如何修改代码呢? On Sun, Dec 3, 2023, 11:04 PM Calvin ***@***.***> wrote: > > https://github.com/mymagicpower/AIAS/blob/main/1_image_sdks/ocr_v4_sdk/src/main/java/top/aias/ocr/utils/detection/OcrV4Detection.java > > > > > > >...
是的.我也在使用whisper但是目前whisper有两个缺点 1.whisper目前不支持实时语音识别即流失处理,而deepspeech2支持 2.whisper的中文识别效果目前还不太好 我想将asr研究明白之后在研究一下tts.你的案例只提供了paddle asr的案例
https://github.com/RapidAI/RapidASR 我使用用过RapidASR,但是它似乎不支持Apple M2
https://github.com/litongjava/tools-ocr/releases/tag/v2.3.0
使用Java进行开机自启动(默认隐藏)不太方便,要不你来开发吧 加入翻译功能 规划中
就提供一下详细的信息