未来是否会开发流式响应的版本呢?
FireRedASR模型在语音识别的准确率方面已经冠军群雄了,但当前并不支持流式响应,而现在的模型 也不支持时间戳输出,导致在生产和日常场景难有很好的实际应用。 感谢开发团队,也希望请问下,未来是否有打算开发支持流式传输的版本,以及对于非流式传输模型的时间戳支持呢?
感谢反馈!我们会持续关注社区的需求
同求流式版本
https://github.com/user-attachments/assets/ba1df572-e612-456b-acd5-4408fdfbd4a9
请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。
建议开源 小模型,速度会更快。
real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。
建议开源 小模型,速度会更快。
请问这个识别的效果怎么样哈?
real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。 建议开源 小模型,速度会更快。
请问这个识别的效果怎么样哈?
顶呱呱
real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。
建议开源 小模型,速度会更快。
大神,请问sherpa-onnx里面有没有python或者Java的代码,做出来这个fire red asr 模型的流式服务呀?谢谢!
https://github.com/k2-fsa/sherpa-onnx/blob/master/python-api-examples/simulate-streaming-sense-voice-microphone.py
这是 python 例子
这是 c++ 例子
- https://github.com/k2-fsa/sherpa-onnx/blob/master/cxx-api-examples/parakeet-tdt-simulate-streaming-microphone-cxx-api.cc
- https://github.com/k2-fsa/sherpa-onnx/blob/master/cxx-api-examples/sense-voice-simulate-streaming-microphone-cxx-api.cc
里面没有什么新的 api, 你可以用我们提供的现有的 api, 自由组合,就能实现这个功能。
(例子代码里,你换个非流式模型,比如,换成 fire red asr, 就可以了)
目前这种方式,适用于任意的非流式模型进行流式识别。前提是这个非流式模型运行的速度很快。
real-time-fire-red-asr.mov 请看在sherpa-onnx里,使用非流式的 fire red asr 模型,进行实时的语音识别。 建议开源 小模型,速度会更快。
请问这个识别的效果怎么样哈?
顶呱呱
大佬您好,请问 fire-asr本身暂时不支持热词,利用上面您的这个方法:sherpa-onnx转 fire-asr为流式之后,是否支持热词呢,谢谢!!
我们支持替换同音词组。只要拼音识别对了,就没问题
我们支持替换同音词组。只要拼音识别对了,就没问题
请问如何把小红书官方模型转为ONNX,目前我看sherpa-onnx只提供了8比特量化版本,感觉精度降低的有点多,所以我想自己转一下
我们支持替换同音词组。只要拼音识别对了,就没问题
请问如何把小红书官方模型转为ONNX,目前我看sherpa-onnx只提供了8比特量化版本,感觉精度降低的有点多,所以我想自己转一下
脚本目前没开源
我们支持替换同音词组。只要拼音识别对了,就没问题
请问如何把小红书官方模型转为ONNX,目前我看sherpa-onnx只提供了8比特量化版本,感觉精度降低的有点多,所以我想自己转一下
脚本目前没开源
那请问sherpa-onnx官方短期内有没有计划转换一个高精度的小红书asr模型,谢谢
@frankqianghe
https://github.com/FireRedTeam/FireRedASR/issues/23
上面早就有了。建议搜一下存在的 issue.
我们支持替换同音词组。只要拼音识别对了,就没问题
@csukuangfj 請問替換同音詞組這塊是怎麼實現的? 有代碼嗎?
https://k2-fsa.github.io/sherpa/onnx/homophone-replacer/index.html
这个是文档 @twmht
下面是视频教程 https://www.bilibili.com/video/BV1ydTkz8ERB/
代码全是开源的。如果你想探究细节,请自行通过文档,去找到相关的代码。
@csukuangfj
請問您是如何把 fireredasr 轉成 onnx 的?
請問您是如何把 fireredasr 轉成 onnx 的?
@twmht
请看 https://github.com/FireRedTeam/FireRedASR/issues/23#issuecomment-2662426878
和 https://github.com/FireRedTeam/FireRedASR/issues/39#issuecomment-2689943737
FireRedASR模型在语音识别的准确率方面已经冠军群雄了,但当前并不支持流式响应,而现在的模型 也不支持时间戳输出,导致在生产和日常场景难有很好的实际应用。 感谢开发团队,也希望请问下,未来是否有打算开发支持流式传输的版本,以及对于非流式传输模型的时间戳支持呢?
可以看下这个项目:https://github.com/xphh/fireredasr-streaming
我基于模型自回归的特性,修改了下推理代码,可以做到流式,响应延迟在T4下可以控制在200ms以内