sherpa-onnx sherpa-onnx-streaming-paraformer-bilingual-zh-en 模型用麦克风流式推理经常会漏掉最后一个字

6_介绍一下巡检机器_1727156347.7198553.zip

Sep 24 '24 05:09 Text2-m

请用文字和代码描述如何复现

Sep 24 '24 05:09 csukuangfj

脚本参考 python-api-examples/speech-recognition-from-microphone-with-endpoint-detection.py 把加载模型换成了paraformer的，把麦克风拾到音保存了音频文件我听着，还挺清楚的，基本上漏掉最后一个字的概率有50% def create_recognizer(args): assert_file_exists(args.encoder) assert_file_exists(args.decoder) assert_file_exists(args.tokens) # Please replace the model files if needed. # See https://k2-fsa.github.io/sherpa/onnx/pretrained_models/index.html # for download links. recognizer = sherpa_onnx.OnlineRecognizer.from_paraformer( tokens=args.tokens, encoder=args.encoder, decoder=args.decoder, num_threads=1, sample_rate=16000, feature_dim=80, enable_endpoint_detection=True, rule1_min_trailing_silence=2.4, rule2_min_trailing_silence=1.2, rule3_min_utterance_length=300, # it essentially disables this rule decoding_method=args.decoding_method, provider=args.provider, ) return recognizer

Sep 24 '24 06:09 Text2-m

https://github.com/k2-fsa/sherpa-onnx/blob/master/python-api-examples/streaming-paraformer-asr-microphone.py

你要用这个脚本

Sep 24 '24 06:09 csukuangfj

用你这个脚本，也漏最后一个字

https://github.com/k2-fsa/sherpa-onnx/blob/master/python-api-examples/streaming-paraformer-asr-microphone.py

你要用这个脚本

Sep 24 '24 07:09 Text2-m

那你用 build/bin 下面的 sherpa-onnx-microphone 测试呢？

看了下， python 的例子代码里，没有在 endpoint 的时候，再加一些 padding.

C++ 例子代码，有加的

https://github.com/k2-fsa/sherpa-onnx/blob/d8809b520ee3824b8dea139270c14d98f50ad0b9/sherpa-onnx/csrc/sherpa-onnx-microphone.cc#L186-L197

还有，流式模型，建议用 https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-transducer/zipformer-transducer-models.html#csukuangfj-sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20-bilingual-chinese-english

Sep 24 '24 08:09 csukuangfj

那你用 build/bin 下面的 sherpa-onnx-microphone 测试呢？

看了下， python 的例子代码里，没有在 endpoint 的时候，再加一些 padding.

C++ 例子代码，有加的

https://github.com/k2-fsa/sherpa-onnx/blob/d8809b520ee3824b8dea139270c14d98f50ad0b9/sherpa-onnx/csrc/sherpa-onnx-microphone.cc#L186-L197

还有，流式模型，建议用 https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-transducer/zipformer-transducer-models.html#csukuangfj-sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20-bilingual-chinese-english

你们的模型是这个吗 https://modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx/files ，如果不是用这个onnx的模型能推理吗，我看这个模型训练用了6w小时的数据

Sep 25 '24 09:09 Text2-m

还有一个问题，paraformer推理做padding 是不是端点处往后再录入一秒的音频推理就行了？

Sep 25 '24 09:09 Text2-m

我们提供的所有 paraformer 预训练模型，都是来自 funasr。具体哪个对应那个，请自己去我们的文档里找。

还有一个问题，paraformer推理做padding 是不是端点处往后再录入一秒的音频推理就行了？

可以的。上面已经告诉你如何做了，不知道你去试了没？如果试了的话，应该就没有问题了。

Sep 25 '24 11:09 csukuangfj

好的，感谢

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: Fangjun Kuang @.> 发送时间: 2024年9月25日 19:44 收件人: k2-fsa/sherpa-onnx @.> 抄送: zm_11 @.>, Author @.> 主题: Re: [k2-fsa/sherpa-onnx] sherpa-onnx-streaming-paraformer-bilingual-zh-en 模型用麦克风流式推理经常会漏掉最后一个字 (Issue #1373)

我们提供的所有 paraformer 预训练模型，都是来自 funasr。具体哪个对应那个，请自己去我们的文档里找。

还有一个问题，paraformer推理做padding 是不是端点处往后再录入一秒的音频推理就行了？

可以的。上面已经告诉你如何做了，不知道你去试了没？如果试了的话，应该就没有问题了。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Sep 25 '24 11:09 Text2-m

sherpa-onnx sherpa-onnx copied to clipboard

sherpa-onnx-streaming-paraformer-bilingual-zh-en 模型 用麦克风流式推理 经常会漏掉最后一个字

sherpa-onnx
sherpa-onnx copied to clipboard

sherpa-onnx-streaming-paraformer-bilingual-zh-en 模型用麦克风流式推理经常会漏掉最后一个字