FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

Results 555 FunASR issues
Sort by recently updated
recently updated
newest added
trafficstars

你好,感谢大佬们,开源了这个项目,想问下下面的这个可以用flash attention来加速吗? https://github.com/alibaba-damo-academy/FunASR/blob/b635c062f1550be59047168fcb48a39542913a57/funasr/modules/attention.py#L315

已按照Readme文档添加了4个库。

我当前构建的镜像中没有torchaudio,期望使用librosa来进行处理 我看了modelscope的源码,你们代码中其实有相关的torchaudio和librosa处理,但是因为import的地方在文件头导致会出现ModuleNotFoundError: No module named 'torchaudio',希望能帮忙处理下这个问题 代码位置是funasr/utils/asr_utils.py 代码位置是funasr/bin/asr_inference_launch.py

用客户端程序发送音频是没有问题的,但是网页连不上服务器。我没有用ssl。 我的连接地址写的是“ws://ip:port”的形式,显示连接成功,其实没有连接上; 查看了以前的issue,说啥要用“[点此处手工授权(IOS手机)]”那个页面,但是我点了之后加载不出来,所以也连接不上,用的是Mac电脑+chrome浏览器;

Ubuntu 环境,docker 24.0.5,最新2.0.1镜像,识别大型音频(300m以上)之后,内存不会释放,导致多次识别之后内存溢出

bug

funasr在线服务, ``` python funasr_wss_client.py \ --host "127.0.0.1" \ --port 10096 \ --audio_in wav.scp \ --output_dir "./result_online\ --mode 2pass \ --thread_num 10 ``` 输出结果如下 ``` TEST_MEETING_T0000008258_S00000 对外成 TEST_MEETING_T0000008258_S00000 样什么样的 TEST_MEETING_T0000008258_S00000 规划划...

OS:Ubuntu python version:3.8.18 Package Version:funasr==0.8.1 modelscope==1.9.3 torch==2.1.0 torchaudio==2.1.0 Model:train_asr_paraformer_conformer_12e_6d_2048_256_zh_char Command:bash run.sh --stage 0 --stop_stage 5 Details:在trrain.log中 Traceback (most recent call last): File "/root/miniconda3/envs/funasr/lib/python3.8/site-packages/torch/utils/data/_utils/worker.py", line 308, in _worker_loop data = fetcher.fetch(index)...

我是通过以下指令下载的docker镜像 ``` sudo docker pull \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.5 ``` 启动后进入窗口 ``` cd FunASR/runtime bash run_server_2pass.sh \ --download-model-dir /workspace/models \ --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \ --model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx \ --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx \ --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \...

请问识别的数字如何能转换成阿拉伯数字,比如一百九十二点一一五,输出192.115 谢谢