FireRedASR 未来是否会开发流式响应的版本呢？

FireRedASR模型在语音识别的准确率方面已经冠军群雄了，但当前并不支持流式响应，而现在的模型也不支持时间戳输出，导致在生产和日常场景难有很好的实际应用。感谢开发团队，也希望请问下，未来是否有打算开发支持流式传输的版本，以及对于非流式传输模型的时间戳支持呢？

May 03 '25 06:05 MysteryMulberry

感谢反馈！我们会持续关注社区的需求

May 07 '25 02:05 FireRedTeam

同求流式版本

May 12 '25 04:05 frankqianghe

https://github.com/user-attachments/assets/ba1df572-e612-456b-acd5-4408fdfbd4a9

请看在sherpa-onnx里，使用非流式的 fire red asr 模型，进行实时的语音识别。

建议开源小模型，速度会更快。

May 12 '25 04:05 csukuangfj

real-time-fire-red-asr.mov 请看在sherpa-onnx里，使用非流式的 fire red asr 模型，进行实时的语音识别。

建议开源小模型，速度会更快。

请问这个识别的效果怎么样哈？

May 12 '25 08:05 gallery2016

real-time-fire-red-asr.mov 请看在sherpa-onnx里，使用非流式的 fire red asr 模型，进行实时的语音识别。建议开源小模型，速度会更快。

请问这个识别的效果怎么样哈？

顶呱呱

May 12 '25 08:05 csukuangfj

real-time-fire-red-asr.mov 请看在sherpa-onnx里，使用非流式的 fire red asr 模型，进行实时的语音识别。

建议开源小模型，速度会更快。

大神，请问sherpa-onnx里面有没有python或者Java的代码，做出来这个fire red asr 模型的流式服务呀？谢谢！

May 12 '25 10:05 gallery2016

https://github.com/k2-fsa/sherpa-onnx/blob/master/python-api-examples/simulate-streaming-sense-voice-microphone.py

这是 python 例子

这是 c++ 例子

https://github.com/k2-fsa/sherpa-onnx/blob/master/cxx-api-examples/parakeet-tdt-simulate-streaming-microphone-cxx-api.cc
https://github.com/k2-fsa/sherpa-onnx/blob/master/cxx-api-examples/sense-voice-simulate-streaming-microphone-cxx-api.cc

里面没有什么新的 api, 你可以用我们提供的现有的 api, 自由组合，就能实现这个功能。

（例子代码里，你换个非流式模型，比如，换成 fire red asr，就可以了)

目前这种方式，适用于任意的非流式模型进行流式识别。前提是这个非流式模型运行的速度很快。

May 13 '25 02:05 csukuangfj

real-time-fire-red-asr.mov 请看在sherpa-onnx里，使用非流式的 fire red asr 模型，进行实时的语音识别。建议开源小模型，速度会更快。

请问这个识别的效果怎么样哈？

顶呱呱

大佬您好，请问 fire-asr本身暂时不支持热词，利用上面您的这个方法：sherpa-onnx转 fire-asr为流式之后，是否支持热词呢，谢谢！！

May 20 '25 03:05 gallery2016

我们支持替换同音词组。只要拼音识别对了，就没问题

May 20 '25 03:05 csukuangfj

我们支持替换同音词组。只要拼音识别对了，就没问题

请问如何把小红书官方模型转为ONNX，目前我看sherpa-onnx只提供了8比特量化版本，感觉精度降低的有点多，所以我想自己转一下

May 26 '25 17:05 frankqianghe

我们支持替换同音词组。只要拼音识别对了，就没问题

请问如何把小红书官方模型转为ONNX，目前我看sherpa-onnx只提供了8比特量化版本，感觉精度降低的有点多，所以我想自己转一下

脚本目前没开源

May 26 '25 22:05 csukuangfj

我们支持替换同音词组。只要拼音识别对了，就没问题

请问如何把小红书官方模型转为ONNX，目前我看sherpa-onnx只提供了8比特量化版本，感觉精度降低的有点多，所以我想自己转一下

脚本目前没开源

那请问sherpa-onnx官方短期内有没有计划转换一个高精度的小红书asr模型，谢谢

May 27 '25 07:05 frankqianghe

@frankqianghe

https://github.com/FireRedTeam/FireRedASR/issues/23

上面早就有了。建议搜一下存在的 issue.

May 27 '25 07:05 csukuangfj

@frankqianghe

#23

上面早就有了。建议搜一下存在的 issue.

非常感谢

May 27 '25 07:05 frankqianghe

我们支持替换同音词组。只要拼音识别对了，就没问题

@csukuangfj 請問替換同音詞組這塊是怎麼實現的? 有代碼嗎?

Jun 10 '25 03:06 twmht

https://k2-fsa.github.io/sherpa/onnx/homophone-replacer/index.html

这个是文档 @twmht

下面是视频教程 https://www.bilibili.com/video/BV1ydTkz8ERB/

代码全是开源的。如果你想探究细节，请自行通过文档，去找到相关的代码。

Jun 10 '25 07:06 csukuangfj

@csukuangfj

請問您是如何把 fireredasr 轉成 onnx 的?

Jun 18 '25 07:06 twmht

@csukuangfj

請問您是如何把 fireredasr 轉成 onnx 的?

@twmht

请看 https://github.com/FireRedTeam/FireRedASR/issues/23#issuecomment-2662426878

和 https://github.com/FireRedTeam/FireRedASR/issues/39#issuecomment-2689943737

Jun 18 '25 08:06 csukuangfj

FireRedASR模型在语音识别的准确率方面已经冠军群雄了，但当前并不支持流式响应，而现在的模型也不支持时间戳输出，导致在生产和日常场景难有很好的实际应用。感谢开发团队，也希望请问下，未来是否有打算开发支持流式传输的版本，以及对于非流式传输模型的时间戳支持呢？

可以看下这个项目：https://github.com/xphh/fireredasr-streaming

我基于模型自回归的特性，修改了下推理代码，可以做到流式，响应延迟在T4下可以控制在200ms以内

Jul 04 '25 02:07 xphh