sherpa-onnx icon indicating copy to clipboard operation
sherpa-onnx copied to clipboard

ubuntu server上有哪些ASR、TTS模型是支持流式

Open manhongnie opened this issue 2 months ago • 3 comments

因为我们需要一个实时对话,本地部署的。

manhongnie avatar Sep 30 '25 06:09 manhongnie

Hi @manhongnie! I'm Dosu and I’m helping the sherpa-onnx team.

在 Ubuntu server 上,sherpa-onnx 支持多种流式(实时)ASR 和本地 TTS 模型,非常适合本地部署的实时对话场景。

ASR(语音识别,支持流式)
支持流式的模型包括 Zipformer Transducer、Conformer Transducer、NeMo Transducer、Paraformer 以及 CTC 系列,覆盖中文、英文、韩语、日语、俄语等多种语言。例如:

  • 中文:sherpa-onnx-streaming-zipformer-zh-xlarge-int8sherpa-onnx-streaming-zipformer-multi-zh-hanssherpa-onnx-streaming-zipformer-ctc-zh-xlarge-int8
  • 英文:sherpa-onnx-streaming-zipformer-ensherpa-onnx-streaming-zipformer-bilingual-zh-en
  • 韩语:sherpa-onnx-streaming-zipformer-korean
  • 还有多语言模型和方言模型

这些模型都可以通过 sherpa-onnx-microphonesherpa-onnx-alsa 实现本地实时麦克风流式识别,无需联网,适合对话场景。详细模型和部署方法见官方文档

TTS(文本转语音,支持实时)
TTS 方面,sherpa-onnx 提供了 Matcha、Kokoro、KittenTTS、VITS 等多种模型,支持中文、英文和多说话人,均可本地部署,且在树莓派等嵌入式设备上实测 RTF(实时因子)远小于 1,完全满足实时合成需求。例如:

  • 中文:matcha-icefall-zh-bakerkokoro-multi-lang-v1_1vits-melo-tts-zh_encsukuangfj/vits-zh-hf-fanchen-C
  • 英文:matcha-icefall-en_US-ljspeechkokoro-en-v0_19kitten-nano-en-v0_1-fp16vits-piper-en_US-glados
  • 多说话人和多语言模型也有丰富选择

TTS 支持 C++、Python、Go 等多语言 API,适合集成到实时对话系统。详细模型和用法见官方文档

注意:ASR 的“流式”是指可以边说边出结果,适合实时对话。TTS 虽然没有“流式增量输出”,但合成速度足够快,实际对话体验是实时的。

如需具体模型推荐或部署细节,可以补充你的语言需求或硬件环境。

To reply, just mention @dosu.


How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other  Join Discord Share on X

dosubot[bot] avatar Sep 30 '25 06:09 dosubot[bot]

使用语言python3.8-3.12均可,x86的开发板,用的官方的ubuntu server系统,24.04,python环境管理器 miniconda

manhongnie avatar Sep 30 '25 07:09 manhongnie

你的环境(Python 3.8-3.12、x86开发板、Ubuntu Server 24.04、Miniconda)完全支持 sherpa-onnx 的流式 ASR 和本地 TTS 部署。官方已提供适配 Python 3.8-3.12 的 manylinux2014 预编译 wheel,无需源码编译,直接 pip 安装即可,适用于 Miniconda 环境 详情见官方安装文档

推荐安装流程(以 Miniconda 环境为例):

# 创建并激活 conda 环境(任选 Python 3.8-3.12 版本)
conda create -n sherpa python=3.10
conda activate sherpa

# 安装 sherpa-onnx(CPU-only,适合大多数 x86 开发板)
pip install sherpa-onnx

# 如需 GPU 加速(NVIDIA CUDA),可用
# pip install sherpa-onnx==1.11.1+cuda -f https://k2-fsa.github.io/sherpa/onnx/cuda.html

# 验证安装
python -c "import sherpa_onnx; print(sherpa_onnx.__file__)"

如需指定国内源或历史版本,可用:

pip install sherpa-onnx -f https://k2-fsa.github.io/sherpa/onnx/cpu-cn.html

所有流式 ASR 和 TTS 模型都可在该环境下运行,模型选择和用法见 ASR模型文档TTS模型文档

Miniconda 环境下建议优先用 pip 安装,避免 conda/pip 混用导致依赖冲突。安装完成后可直接用 Python API 或命令行工具调用 sherpa-onnx,无需特殊配置。

如需具体模型推荐或集成示例,可补充你的应用场景。

To reply, just mention @dosu.


How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other  Join Discord Share on X

dosubot[bot] avatar Sep 30 '25 07:09 dosubot[bot]