FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

Results 555 FunASR issues
Sort by recently updated
recently updated
newest added

Notice: In order to resolve issues more efficiently, please raise issue following the template. (注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节) ## ❓ Questions and Help 我的系统有GPU,也安装了 onnx_gpu, 但是全部使用的是CPU,我需要用GPU onnx 1.16.1 onnxruntime 1.19.0 onnxruntime-gpu 1.18.1 model_dir...

question

issue已搜索,未找到相关提问 问题: 1. funasr从0.7升级到最新版之后,输出的sentence没有了,新版本输出改了吗,有办法获取吗; 2. 非中英的东南亚小语种用哪个标点符号模型呢; 3. senseVoice要想有sentence、标点符号该如何配置pipeline呢; 谢谢

question

在转写长音频(20分钟以上)的时候,会出现大量的叠字,回放音频,发现一般出现在: 1. 一句话出现短暂的停顿,会把上一个字重复输出一次,比如:提醒出发,醒停顿了一下,就会识别为提醒醒出发; 2. 把上一个词的前一个字,错误的识别为上一个词的后一个字,比如:微博留言,会识别为:微博博言; 以下是我的模型配置: ![image](https://github.com/user-attachments/assets/9ea5790a-7195-4090-82a5-383d18953477) 叠字截图: ![image](https://github.com/user-attachments/assets/cf88f271-5c04-4279-a40b-4a9d480ce700) 测试音频(转写后,用正则表达式:(.)\1 可以查看叠字现象): [MA005_测试.zip](https://github.com/user-attachments/files/17394657/MA005_.zip) 其他测试过的模型: speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 也存在这个问题。 总结以下规律:‘ 1. 同一段音频,用faster whisper 不会出现这么高频率的叠字现象; 2. 将音频截取出小段,可以消除叠字现象; 3. 不是所有音频都遇到这个问题。 ### Environment - OS (e.g., Linux):...

bug

https://github.com/modelscope/FunASR/blob/98e2c546a08917f450d32d63968affd5b975ad2a/funasr/models/fsmn_vad_streaming/model.py#L648 ![问题](https://github.com/user-attachments/assets/d3e5feef-9113-4b4a-9a78-4f665236fc07) fsmn_vad中的推理调用一次之后,函数的默认参数就会被改掉,这个是故意设置成这样的?比如cache,从框架代码auto_model.py推理传参是没有的,推理后直接把model.py 中 inference函数的默认参数 cache: dict = {},给改掉了

#### What is your question? #### Code from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks from argparse import ArgumentParser import os import soundfile as sf import time import numpy as...

question

严重性 代码 说明 项目 文件 行 禁止显示状态 详细信息 错误 MSB6006 “CL.exe”已退出,代码为 -1073740791。 funasr C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\Microsoft.CppCommon.targets 755

question

你好,我在运行ASR streaming client,即 python funasr_wss_client.py --host "0.0.0.0" --port 10095 --mode online --chunk_size "5,10,5" 这行代码时出现以下错误: OSError: No Default Output Device Available 报错代码如下: #### Code Namespace(host='0.0.0.0', port=8821, chunk_size=[5, 10, 5], encoder_chunk_look_back=4, decoder_chunk_look_back=0,...

question

如题,这个问题困扰了我很久,请问要做什么配置吗? 例如,第一句话说:“你好吗”(此时没有问号),第二句话说:“我很好”(此时回复的是:“?我很好”),那么如果我只说一句话就没有标点了;多句话的时候最后一句也是没有标点的。 感谢~ 下面是具体的配置以及日志: sudo docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.11 nohup bash run_server_2pass.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \ --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \...

question

![屏幕截图 2024-10-09 135552](https://github.com/user-attachments/assets/d5fa3ffa-992f-4871-ab0d-6759ba7b0f7f) 使用**官方示例**进行实时语音识别推理时候出现问题, 当使用自己的wav文件输入之后,输出错误结果,如图所示。 请问这是什么问题?

question

Hi, is it able to support hotwords for sense voice model by using wfst ?

question