sherpa-onnx
sherpa-onnx copied to clipboard
Speech-to-text, text-to-speech, speaker diarization, speech enhancement, source separation, and VAD using next-gen Kaldi with onnxruntime without Internet connection. Support embedded systems, Android...
链接1:https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2 链接2:https://github.com/k2-fsa/icefall/blob/master/.github/scripts/librispeech/ASR/run_rknn.sh 链接3:https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-rk3588-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2 我从链接1中下载了现成的onnx模型,经过测试性能还不错,实际应用中需要转为rknn模型,于是我尝试按照链接2中的步骤导出对应的静态onnx模型与rknn模型。 模型均转导出正常,在私有数据集上测试链接2导出的rknn模型,准确率与链接1的onnx模型有点差距,随后我测试了链接3的rknn模型,与链接2导出的rknn模型性能一致。 链接2导出的encoder静态onnx模型只有240+M,而链接1中的onnx模型有310+M,经测试链接2导出onnx模型与链接2导出的rknn模型性能相近,与链接1的onnx模型亦有差距。 请问上述问题是否属于正常现象,能否导出链接1中的静态onnx模型?
tts模型推荐
没有找到rtf在1以内且支持中英双语的模型
运行python-api-examples文件夹下的offline-sense-voice-ctc-decode-files.py 模型:sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2025-09-09 测试语音:sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2025-09-09/test_wavs/zh.wav 这种问题是模型自身性导致的?还是参数设置导致的呢?
比如说播放уставать这个单词时,у不会进行朗读,并且预留了足够的静音
老师您好!我碰到了一个性能优化问题,以下是我的问题描述: 功能需求: 对录音进行语音识别和说话人日志整合。 1. 语音识别文字,已使用whisper.cpp实现完成; 2. 说话人日志,采用sherpa-onnx实现了CPU推理。 我的whisper.cpp采用了vulkan加速,因为 sherpa-onnx 不支持vulkan加速,纯CPU推理的话,导致了对长录音执行时间太长,性能太低。但是用cuda是不现实的,因为cuda环境的安装对于普通pc用户来说还是有一定门槛的,而且cuda只支持nvidia显卡,所以只能抛弃掉。 目前我有一个设想,就是从 whisper.cpp 推理出来有时间戳,我能不能从这个时间戳中抽取出一小段音频给 sherpa-onnx 用嵌入模型进行说话人识别呢?这样就可以剩掉了分段模型的推理时间,虽然相对于采用分段模型进行分段,这个方法可能精度不是太高,但是这已经是我目前能想到的比较平衡的性能优化方案了。 如果上述优化方案可以实现的话,老师能不能指导一下实现的思路呢?或您有更好的方案的话,还请您不吝赐教,谢谢您!
老师您好 我在做ASR和TTS相关的部署优化工作。目前在端侧的cpu和npu都有了进展。 下一步因为cpu端的性能问题,考虑在端侧的gpu部署melotts(算力在2T),架构为valkan/opencl。 想问下有什么基于sherpa的修改思路吗?
Sorry will try to make the inquiry quick because perhaps it's an obvious no (or yes?) But I know NVIDIA's framework allows for phrase boosting (an example of some discussion...
I am transcribing aishell-1 to Chinese, when I run this code in cuda, it will produce this error. when I run this code in cpu, it is ok. What's wrong...
编译静态库报错
ld: error: undefined symbol: std::__ndk1::basic_filebuf::basic_filebuf() >>> referenced by fstream:1215 (/usr/local/lib/android/sdk/ndk/27.2.12479018/toolchains/llvm/prebuilt/linux-x86_64/sysroot/usr/include/c++/v1/fstream:1215) >>> inference_session.cc.o:(onnxruntime::profiling::Profiler::Profiler()) in archive ../../1.20.2-static/lib//libonnxruntime.a >>> referenced by fstream:1218 (/usr/local/lib/android/sdk/ndk/27.2.12479018/toolchains/llvm/prebuilt/linux-x86_64/sysroot/usr/include/c++/v1/fstream:1218) >>> inference_session.cc.o:(std::__ndk1::basic_ofstream::basic_ofstream(char const*, unsigned int)) in archive ../../1.20.2-static/lib//libonnxruntime.a >>> referenced...