sherpa-onnx issues

关于sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20导出onnx模型的疑问

9

链接1：https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2 链接2：https://github.com/k2-fsa/icefall/blob/master/.github/scripts/librispeech/ASR/run_rknn.sh 链接3：https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-rk3588-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2 我从链接1中下载了现成的onnx模型，经过测试性能还不错，实际应用中需要转为rknn模型，于是我尝试按照链接2中的步骤导出对应的静态onnx模型与rknn模型。模型均转导出正常，在私有数据集上测试链接2导出的rknn模型，准确率与链接1的onnx模型有点差距，随后我测试了链接3的rknn模型，与链接2导出的rknn模型性能一致。链接2导出的encoder静态onnx模型只有240+M，而链接1中的onnx模型有310+M，经测试链接2导出onnx模型与链接2导出的rknn模型性能相近，与链接1的onnx模型亦有差距。请问上述问题是否属于正常现象，能否导出链接1中的静态onnx模型？

xqhua

tts模型推荐

9

没有找到rtf在1以内且支持中英双语的模型

ee-redbull

部分语音识别模型会在开头缺少文本，比如语音内容的开头是【开放】，识别后返回的文本开头是【放】，是需要调整哪些参数么

9

运行python-api-examples文件夹下的offline-sense-voice-ctc-decode-files.py 模型：sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2025-09-09 测试语音：sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2025-09-09/test_wavs/zh.wav 这种问题是模型自身性导致的？还是参数设置导致的呢？

Thunderltx

俄语单词播放朗读不完整，第一个音素会被截断

5

比如说播放уставать这个单词时，у不会进行朗读，并且预留了足够的静音

3441152376

请教关于说话人日志（diarization）的性能优化问题。

3

老师您好！我碰到了一个性能优化问题，以下是我的问题描述：功能需求：对录音进行语音识别和说话人日志整合。 1. 语音识别文字，已使用whisper.cpp实现完成； 2. 说话人日志，采用sherpa-onnx实现了CPU推理。我的whisper.cpp采用了vulkan加速，因为 sherpa-onnx 不支持vulkan加速，纯CPU推理的话，导致了对长录音执行时间太长，性能太低。但是用cuda是不现实的，因为cuda环境的安装对于普通pc用户来说还是有一定门槛的，而且cuda只支持nvidia显卡，所以只能抛弃掉。目前我有一个设想，就是从 whisper.cpp 推理出来有时间戳，我能不能从这个时间戳中抽取出一小段音频给 sherpa-onnx 用嵌入模型进行说话人识别呢？这样就可以剩掉了分段模型的推理时间，虽然相对于采用分段模型进行分段，这个方法可能精度不是太高，但是这已经是我目前能想到的比较平衡的性能优化方案了。如果上述优化方案可以实现的话，老师能不能指导一下实现的思路呢？或您有更好的方案的话，还请您不吝赐教，谢谢您！

LiHuo922

请问如何把TTS运行在端侧的GPU

1

老师您好我在做ASR和TTS相关的部署优化工作。目前在端侧的cpu和npu都有了进展。下一步因为cpu端的性能问题，考虑在端侧的gpu部署melotts（算力在2T），架构为valkan/opencl。想问下有什么基于sherpa的修改思路吗？

pqsworld

Anyway to use hotwords for parakeet v2?

2

Sorry will try to make the inquiry quick because perhaps it's an obvious no (or yes?) But I know NVIDIA's framework allows for phrase boosting (an example of some discussion...

Michael-1001

sherpa-onnx-paraformer-zh-2024-03-09 Continuous decode_stream in cuda failed

9

I am transcribing aishell-1 to Chinese, when I run this code in cuda, it will produce this error. when I run this code in cpu, it is ok. What's wrong...

wen1q84

编译静态库报错

1

ld: error: undefined symbol: std::__ndk1::basic_filebuf::basic_filebuf() >>> referenced by fstream:1215 (/usr/local/lib/android/sdk/ndk/27.2.12479018/toolchains/llvm/prebuilt/linux-x86_64/sysroot/usr/include/c++/v1/fstream:1215) >>> inference_session.cc.o:(onnxruntime::profiling::Profiler::Profiler()) in archive ../../1.20.2-static/lib//libonnxruntime.a >>> referenced by fstream:1218 (/usr/local/lib/android/sdk/ndk/27.2.12479018/toolchains/llvm/prebuilt/linux-x86_64/sysroot/usr/include/c++/v1/fstream:1218) >>> inference_session.cc.o:(std::__ndk1::basic_ofstream::basic_ofstream(char const*, unsigned int)) in archive ../../1.20.2-static/lib//libonnxruntime.a >>> referenced...

lzn1251

sherpa-onnx
sherpa-onnx copied to clipboard

Metadata

关于sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20导出onnx模型的疑问

tts模型推荐

部分语音识别模型会在开头缺少文本，比如语音内容的开头是【开放】，识别后返回的文本开头是【放】，是需要调整哪些参数么

俄语单词播放朗读不完整，第一个音素会被截断

请教关于说话人日志（diarization）的性能优化问题。

请问如何把TTS运行在端侧的GPU

Anyway to use hotwords for parakeet v2?

sherpa-onnx-paraformer-zh-2024-03-09 Continuous decode_stream in cuda failed

编译静态库报错

← Metadata

Owner

Metadata

sherpa-onnx sherpa-onnx copied to clipboard

Metadata

← Metadata

Owner

Metadata

sherpa-onnx
sherpa-onnx copied to clipboard