sherpa-onnx issues

iOS实现流式gtcrn (Implementing Streaming GTCRN on iOS)

1

rt [gtcrn_stream_iOS.zip](https://github.com/user-attachments/files/20687693/gtcrn_stream_iOS.zip)

different performers between zh asr model & zh_en asr model

您好！我在尝试用你们提供的中文模型icefall-asr-zipformer-wenetspeech-20230615和multi_zh_en模型以及我自己训练的模型暂且称为mine（中英文的、基于multi_zh_en的recipe训练的；中文数据包括wenetspeech等公开的、英文就一个librispeech、中英文的就一个tal）的时候发现一个现象：单中文的wenetspeech对于短词识别比中英文的好很多；以下是我的测试：还有一些没有放上来；总的来说icefall-asr-zipformer-wenetspeech-20230615>multi_zh_en>>mine；我训练的是20个epoch，我目前怀疑的是我的训练epoch太少了？我不确定是什么原因引起的，是训练太少的原因还是因为中英文的建模导致的呢？还有一个现象就是，比如粗粉在一个句子中，mine是可以识别的（ex：我喜欢吃粗粉）；但是单说的时候只输出一个很离谱的字我就不是很懂了... 希望我描述清楚了，期待您的回复！

Uniquelock

New STT

1

Possible this model? https://huggingface.co/onnx-community/Voxtral-Mini-3B-2507-ONNX

Oplay66

python api在昇腾npu 310P3 运行错误：Unsupported string: ascend. Fallback to cpu

21

硬件： NPU : 4张卡的310P3 CPU架构信息： uname -a Linux messi 5.15.0-141-generic #151-Ubuntu SMP Sun May 18 21:36:08 UTC 2025 aarch64 aarch64 aarch64 GNU/Linux 运行环境：python3.11 使用的sherpa-onnx版本： "sherpa-onnx>=1.12.15", "sherpa-onnx-bin>=1.12.15" 使用的模型： sherpa-onnx-ascend-310P3-sense-voice-zh-en-ja-ko-yue-2024-07-17 问题代码片段（路径部分暂时使用文字描述，可以确认模型路径没有传递错误）： def...

nice70

sense-voice模型输出不带标点符号分割

15

我基于仓库中python-api-examples/simulate-streaming-sense-voice-microphone.py代码，使用sensevoice模型输出的文本，不带标定符号分割，这个是什么原因。比如当我说： “1+1等于几，1+1等于2，为什么一加一等于二的时候”，输出是： "1+1等于几1+1等于2为什么一加一等于二的时候"

JackCCCCC

Guidance needed: Location of JNI source code and required memory release pattern for Android TTS/JNI usage

5

I am evaluating the sherpa-onnx library for a project that requires tight control over memory management in the native C++ layer (specifically the TTS functionality). I need to ensure that...

XihuaZ

请教一个关于音素转换的问题

1

大佬们，我之前一直在想能否实现一个混合语言的tts，后面发现这个对我批来说比较困难，于是我收集了两种不同语言的数据集，一种英语，一种俄语，这两个数据集都是同一个人的声音，这是为了保证音色的一致性，通过改造icefall下的ljspeech，训练了两个语言的tts模型，我想的是再预处理阶段对文本切割，将不同的语言分别传入对应的tts模型，然后将生成的音频合并，这样就能实现我的目标，但是就算是训练的数据是一致的，但是模型产出的声音区别还是很大。除了这个问题，还有个问题不好解决，举个例子 Здравствуйте hello （中文都是你好的意思）拼接后我发现这个音频不连贯，就是听起来不对劲，当然最重要的是音色会有区别，尽管是同一个人的数据集训练的。后面我想到了一个办法能够实现低配版的混合语言的tts。本质上，我们这个模型是对音素进行建模，理论上说我们的模型能够生成任何语言的音频，因为所有语言的单词都可以转换为音素，唯一的问题在于不同语言的音素会有区别，就拿英语和俄语来说，英语的tokens有一百多个，而俄语的tokens只有英语的一半左右（这个只是我的训练过程产生的token，音素都是使用piper_phonemize生成）。为了实现俄语的tts能够生成英语单词的音频，我的办法很简单，就是再text处理的时候也做分片，俄语的还是走lang=ru，英语的还是走lang=en-us，但是英语走完这个后还会做一个处理，我将英语的音素映射到俄语的音素上，这一步能够解决俄语不认识英语音素的问题，但是有个问题，我觉得是个小问题，就是说的英语会带有俄语的口音，因为英语的一些发音在俄语中是没有的，有点像外国人说中文的感觉，我让AI帮我做的映射，感觉问题并不是很大，只要这个映射表够专业应该是完全可以的。(不知道为什么我的音频传不上来）我的问题是，无论是你们文档中提到的python api还是java api，在生成音频的时候都没有传递lang这个参数，然后我就去看源码，发现你们是隐式传递的，这个模型在转换的时候会加入一个meta_info，这个类似于一个说明文档的东西 meta_data = { "model_type": "vits", "version": "1", "model_author": "k2-fsa", "comment": "icefall", # must be icefall for models from icefall "language": "English", "voice":...

AFun9

tts合成时的samplerate如何控制？

1

例子程序里没有看到接口，然后文档中有的音频是44k。有的是16k。所以有点困惑。这个最终合成出来的音频samplerate怎么控制。

iLibra

Android: OnlineRecognizer constructor deadlocks on Android 15 API 35 (Xiaomi ARM64)

6

## 问题描述 Sherpa ONNX的`OnlineRecognizer`构造函数在Android设备上初始化时发生死锁，无论使用AssetManager还是文件路径方式都会卡在Native层。 ## 环境信息 - **Android版本**: 15 (API 35) - **设备**: Xiaomi 24069RA21C (ARM64) - **Sherpa ONNX版本**: 未知（无法通过getVersion()获取） - **模型类型**: Zipformer - encoder.onnx: 259MB - decoder.onnx: 12MB -...

Sohan-Sun

关于 python-api-examples 中 offline-fire-red-asr-decode-files.py 识别含空白音频时后半部分丢失的问题

1

团队各位老师好，我在使用 python-api-examples 里的 offline-fire-red-asr-decode-files.py 时遇到一个问题：当处理的音频中包含一段空白发音时，程序只能识别出音频前半部分的内容，后半部分无法识别。想请教下这是什么原因导致的？有什么办法可以解决这个问题吗？

20246688

sherpa-onnx
sherpa-onnx copied to clipboard

Metadata

iOS实现流式gtcrn (Implementing Streaming GTCRN on iOS)

different performers between zh asr model & zh_en asr model

New STT

python api在昇腾npu 310P3 运行错误：Unsupported string: ascend. Fallback to cpu

sense-voice模型输出不带标点符号分割

Guidance needed: Location of JNI source code and required memory release pattern for Android TTS/JNI usage

请教一个关于音素转换的问题

tts合成时的samplerate如何控制？

Android: OnlineRecognizer constructor deadlocks on Android 15 API 35 (Xiaomi ARM64)

关于 python-api-examples 中 offline-fire-red-asr-decode-files.py 识别含空白音频时后半部分丢失的问题

← Metadata

Owner

Metadata

sherpa-onnx sherpa-onnx copied to clipboard

Metadata

← Metadata

Owner

Metadata

sherpa-onnx
sherpa-onnx copied to clipboard