FireRedASR icon indicating copy to clipboard operation
FireRedASR copied to clipboard

未来是否会开发流式响应的版本呢?

Open MysteryMulberry opened this issue 7 months ago • 19 comments

FireRedASR模型在语音识别的准确率方面已经冠军群雄了,但当前并不支持流式响应,而现在的模型 也不支持时间戳输出,导致在生产和日常场景难有很好的实际应用。 感谢开发团队,也希望请问下,未来是否有打算开发支持流式传输的版本,以及对于非流式传输模型的时间戳支持呢?

MysteryMulberry avatar May 03 '25 06:05 MysteryMulberry

感谢反馈!我们会持续关注社区的需求

FireRedTeam avatar May 07 '25 02:05 FireRedTeam

同求流式版本

frankqianghe avatar May 12 '25 04:05 frankqianghe

https://github.com/user-attachments/assets/ba1df572-e612-456b-acd5-4408fdfbd4a9

请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。

建议开源 小模型,速度会更快。

csukuangfj avatar May 12 '25 04:05 csukuangfj

real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。

建议开源 小模型,速度会更快。

请问这个识别的效果怎么样哈?

gallery2016 avatar May 12 '25 08:05 gallery2016

real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。 建议开源 小模型,速度会更快。

请问这个识别的效果怎么样哈?

顶呱呱

csukuangfj avatar May 12 '25 08:05 csukuangfj

real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。

建议开源 小模型,速度会更快。

大神,请问sherpa-onnx里面有没有python或者Java的代码,做出来这个fire red asr 模型的流式服务呀?谢谢!

gallery2016 avatar May 12 '25 10:05 gallery2016

https://github.com/k2-fsa/sherpa-onnx/blob/master/python-api-examples/simulate-streaming-sense-voice-microphone.py

这是 python 例子


这是 c++ 例子

  • https://github.com/k2-fsa/sherpa-onnx/blob/master/cxx-api-examples/parakeet-tdt-simulate-streaming-microphone-cxx-api.cc
  • https://github.com/k2-fsa/sherpa-onnx/blob/master/cxx-api-examples/sense-voice-simulate-streaming-microphone-cxx-api.cc

里面没有什么新的 api, 你可以用我们提供的现有的 api, 自由组合,就能实现这个功能。

(例子代码里,你换个非流式模型,比如,换成 fire red asr, 就可以了)

目前这种方式,适用于任意的非流式模型进行流式识别。前提是这个非流式模型运行的速度很快。

csukuangfj avatar May 13 '25 02:05 csukuangfj

real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。 建议开源 小模型,速度会更快。

请问这个识别的效果怎么样哈?

顶呱呱

大佬您好,请问 fire-asr本身暂时不支持热词,利用上面您的这个方法:sherpa-onnx转 fire-asr为流式之后,是否支持热词呢,谢谢!!

gallery2016 avatar May 20 '25 03:05 gallery2016

我们支持替换同音词组。只要拼音识别对了,就没问题

csukuangfj avatar May 20 '25 03:05 csukuangfj

我们支持替换同音词组。只要拼音识别对了,就没问题

请问如何把小红书官方模型转为ONNX,目前我看sherpa-onnx只提供了8比特量化版本,感觉精度降低的有点多,所以我想自己转一下

frankqianghe avatar May 26 '25 17:05 frankqianghe

我们支持替换同音词组。只要拼音识别对了,就没问题

请问如何把小红书官方模型转为ONNX,目前我看sherpa-onnx只提供了8比特量化版本,感觉精度降低的有点多,所以我想自己转一下

脚本目前没开源

csukuangfj avatar May 26 '25 22:05 csukuangfj

我们支持替换同音词组。只要拼音识别对了,就没问题

请问如何把小红书官方模型转为ONNX,目前我看sherpa-onnx只提供了8比特量化版本,感觉精度降低的有点多,所以我想自己转一下

脚本目前没开源

那请问sherpa-onnx官方短期内有没有计划转换一个高精度的小红书asr模型,谢谢

frankqianghe avatar May 27 '25 07:05 frankqianghe

@frankqianghe

https://github.com/FireRedTeam/FireRedASR/issues/23

上面早就有了。建议搜一下存在的 issue.

csukuangfj avatar May 27 '25 07:05 csukuangfj

@frankqianghe

#23

上面早就有了。建议搜一下存在的 issue.

非常感谢

frankqianghe avatar May 27 '25 07:05 frankqianghe

我们支持替换同音词组。只要拼音识别对了,就没问题

@csukuangfj 請問替換同音詞組這塊是怎麼實現的? 有代碼嗎?

twmht avatar Jun 10 '25 03:06 twmht

https://k2-fsa.github.io/sherpa/onnx/homophone-replacer/index.html

这个是文档 @twmht

下面是视频教程 https://www.bilibili.com/video/BV1ydTkz8ERB/

Image

代码全是开源的。如果你想探究细节,请自行通过文档,去找到相关的代码。

csukuangfj avatar Jun 10 '25 07:06 csukuangfj

@csukuangfj

請問您是如何把 fireredasr 轉成 onnx 的?

twmht avatar Jun 18 '25 07:06 twmht

@csukuangfj

請問您是如何把 fireredasr 轉成 onnx 的?

@twmht

请看 https://github.com/FireRedTeam/FireRedASR/issues/23#issuecomment-2662426878

和 https://github.com/FireRedTeam/FireRedASR/issues/39#issuecomment-2689943737

csukuangfj avatar Jun 18 '25 08:06 csukuangfj

FireRedASR模型在语音识别的准确率方面已经冠军群雄了,但当前并不支持流式响应,而现在的模型 也不支持时间戳输出,导致在生产和日常场景难有很好的实际应用。 感谢开发团队,也希望请问下,未来是否有打算开发支持流式传输的版本,以及对于非流式传输模型的时间戳支持呢?

可以看下这个项目:https://github.com/xphh/fireredasr-streaming

我基于模型自回归的特性,修改了下推理代码,可以做到流式,响应延迟在T4下可以控制在200ms以内

xphh avatar Jul 04 '25 02:07 xphh