sherpa-onnx icon indicating copy to clipboard operation
sherpa-onnx copied to clipboard

Speech-to-text, text-to-speech, speaker diarization, speech enhancement, source separation, and VAD using next-gen Kaldi with onnxruntime without Internet connection. Support embedded systems, Android...

Results 419 sherpa-onnx issues
Sort by recently updated
recently updated
newest added

rt [gtcrn_stream_iOS.zip](https://github.com/user-attachments/files/20687693/gtcrn_stream_iOS.zip)

您好!我在尝试用你们提供的中文模型icefall-asr-zipformer-wenetspeech-20230615和multi_zh_en模型以及我自己训练的模型暂且称为mine(中英文的、基于multi_zh_en的recipe训练的;中文数据包括wenetspeech等公开的、英文就一个librispeech、中英文的就一个tal)的时候发现一个现象:单中文的wenetspeech对于短词识别比中英文的好很多;以下是我的测试: 还有一些没有放上来;总的来说icefall-asr-zipformer-wenetspeech-20230615>multi_zh_en>>mine;我训练的是20个epoch,我目前怀疑的是我的训练epoch太少了?我不确定是什么原因引起的,是训练太少的原因还是因为中英文的建模导致的呢? 还有一个现象就是,比如粗粉在一个句子中,mine是可以识别的(ex:我喜欢吃粗粉);但是单说的时候只输出一个很离谱的字我就不是很懂了... 希望我描述清楚了,期待您的回复!

Possible this model? https://huggingface.co/onnx-community/Voxtral-Mini-3B-2507-ONNX

硬件: NPU : 4张卡的310P3 CPU架构信息: uname -a Linux messi 5.15.0-141-generic #151-Ubuntu SMP Sun May 18 21:36:08 UTC 2025 aarch64 aarch64 aarch64 GNU/Linux 运行环境:python3.11 使用的sherpa-onnx版本: "sherpa-onnx>=1.12.15", "sherpa-onnx-bin>=1.12.15" 使用的模型: sherpa-onnx-ascend-310P3-sense-voice-zh-en-ja-ko-yue-2024-07-17 问题代码片段(路径部分暂时使用文字描述,可以确认模型路径没有传递错误): def...

我基于仓库中python-api-examples/simulate-streaming-sense-voice-microphone.py代码,使用sensevoice模型输出的文本,不带标定符号分割,这个是什么原因。 比如当我说: “1+1等于几,1+1等于2,为什么一加一等于二的时候”, 输出是: "1+1等于几1+1等于2为什么一加一等于二的时候"

I am evaluating the sherpa-onnx library for a project that requires tight control over memory management in the native C++ layer (specifically the TTS functionality). I need to ensure that...

大佬们,我之前一直在想能否实现一个混合语言的tts,后面发现这个对我批来说比较困难,于是我收集了两种不同语言的数据集,一种英语,一种俄语,这两个数据集都是同一个人的声音,这是为了保证音色的一致性,通过改造icefall下的ljspeech,训练了两个语言的tts模型,我想的是再预处理阶段对文本切割,将不同的语言分别传入对应的tts模型,然后将生成的音频合并,这样就能实现我的目标,但是就算是训练的数据是一致的,但是模型产出的声音区别还是很大。除了这个问题,还有个问题不好解决,举个例子 Здравствуйте hello (中文都是你好的意思) 拼接后我发现这个音频不连贯,就是听起来不对劲,当然最重要的是音色会有区别,尽管是同一个人的数据集训练的。后面我想到了一个办法能够实现低配版的混合语言的tts。本质上,我们这个模型是对音素进行建模,理论上说我们的模型能够生成任何语言的音频,因为所有语言的单词都可以转换为音素,唯一的问题在于不同语言的音素会有区别,就拿英语和俄语来说,英语的tokens有一百多个,而俄语的tokens只有英语的一半左右(这个只是我的训练过程产生的token,音素都是使用piper_phonemize生成)。为了实现俄语的tts能够生成英语单词的音频,我的办法很简单,就是再text处理的时候也做分片,俄语的还是走lang=ru,英语的还是走lang=en-us,但是英语走完这个后还会做一个处理,我将英语的音素映射到俄语的音素上,这一步能够解决俄语不认识英语音素的问题,但是有个问题,我觉得是个小问题,就是说的英语会带有俄语的口音,因为英语的一些发音在俄语中是没有的,有点像外国人说中文的感觉,我让AI帮我做的映射,感觉问题并不是很大,只要这个映射表够专业应该是完全可以的。(不知道为什么我的音频传不上来) 我的问题是,无论是你们文档中提到的python api还是java api,在生成音频的时候都没有传递lang这个参数,然后我就去看源码,发现你们是隐式传递的,这个模型在转换的时候会加入一个meta_info,这个类似于一个说明文档的东西 meta_data = { "model_type": "vits", "version": "1", "model_author": "k2-fsa", "comment": "icefall", # must be icefall for models from icefall "language": "English", "voice":...

例子程序里没有看到接口,然后文档中有的音频是44k。有的是16k。所以有点困惑。 这个最终合成出来的音频samplerate怎么控制。

## 问题描述 Sherpa ONNX的`OnlineRecognizer`构造函数在Android设备上初始化时发生死锁,无论使用AssetManager还是文件路径方式都会卡在Native层。 ## 环境信息 - **Android版本**: 15 (API 35) - **设备**: Xiaomi 24069RA21C (ARM64) - **Sherpa ONNX版本**: 未知(无法通过getVersion()获取) - **模型类型**: Zipformer - encoder.onnx: 259MB - decoder.onnx: 12MB -...

团队各位老师好,我在使用 python-api-examples 里的 offline-fire-red-asr-decode-files.py 时遇到一个问题:当处理的音频中包含一段空白发音时,程序只能识别出音频前半部分的内容,后半部分无法识别。想请教下这是什么原因导致的?有什么办法可以解决这个问题吗?