FunASR
FunASR copied to clipboard
A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
1、提供一个清晰而简明的问题描述,并附上您所遵循的文档链接。 服务端docker启动服务后,下载客户端,按照cpp文件夹中的readme.md 编译websocket client。编译通过,但是测试出现段错误,信息如下:  文档链接: https://mp.weixin.qq.com/s/jSbnKw_m31BUUbTukPSOIw 2、指明问题出现的环境,包括操作系统(如Windows、Linux、macOS)和相关软件版本(如Python、Torch、Funasr、Modelscope)。 linux centos7, gcc=11.1.0 , openssl=1.1.0,
**Issue:** I'm following the instructions from the "Speech Recognition" documentation and I'm facing an issue when executing `bash run.sh`. I was able to pass stage 0 successfully, but the script...
平台:windows python:3.9 modelscope: 1.9.2 funasr: 0.8.0 [test.zip](https://github.com/alibaba-damo-academy/FunASR/files/13037084/test.zip) 我一段音频1-20s是连续说话的声音,20s-25s是静音, 25s-45s又是连续说话的声音,用长音频的模型,识别出的结果时间戳有问题,比如:00:00:17,930 --> 00:00:26,100 , 20-25s是静音的 是识别问题,还是有其它参数调节可以避免这样的问题么? 附件是音频文件
大佬,请教下: 我们有几个oov词添加到词典中进行训练,添加步骤如下: 1)词典添加(tokens.txt): 眀 瑧 2)训练使用paraformer原生代码(egs/aishell/s1/run.sh),修改如下: train.py \ --task_name asr \ --gpu_id $gpu_id \ --use_preprocessor true \ --token_type $token_type \ --token_list $token_list \ --dataset_type large \ --data_dir ${feats_dir}/data \ --train_set...
感谢阿里团队开源Funasr项目: 我们测试Paraformer在通用性上确实是好于业内一些其他厂商,值得肯定!!! 所以我们想用贵司开源的模型在Aishell-1 上进行Finetune(接入了CTC头,概率为0.3),我们发现一个很奇怪的现象,即train.py 脚本 “--dataset_type small” 时,CTC端时可以正常的收敛,最终CER可以到2.32%(CTC端结果);但是当“--dataset_type large” 时,CTC端无法收敛,模型训练精度很差,如下图:  期待大佬们的回复 Thx
## Settings model: damo/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch sv_threshold: 0.6 ## Scene 1. Same person audio_in: ( 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/sv_example_enroll.wav', 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/sv_example_same.wav' ) model_scores: [0.9804788827896118, 0.019521117210388184] 2. Different person audio_in=( 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/sv_example_enroll.wav', 'https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/sv_example_different.wav') ) model_scores: [0.7429116070270538, 0.25708839297294617] ##...
according to [图1 FunASR实时语音听写服务架构图](https://mp.weixin.qq.com/s/8He081-FM-9IEI4D-lxZ9w), below steps shall do , in order to realize the online stream mode: 1. to split 600ms chunk ( 300ms overlayed); 2. for each chunk: produce...
手动授权问题
Windows系统,chrome浏览器访问funasr的wss服务时,需要先点“手工授权(IOS)”,打开网页后,再连接才能成功。否则会报错。
昨天更新完modelscope和funasr后,发现解码结果对字母大小写的规则改变了。更新前,单词和单个字母都是小写,剩下的字母组合都是大写(例如三角形ABC,力FA,等),并且不会有大小写混合出现的情况。更新后,却会时常出现大小写混合的情况。如果我想恢复到更新前的状况,有办法吗?另外还发现标点符号也变了,中文和英文后面跟的标点不再统一是中文格式了。 下面是两个例子 1 他们有几种可能啊AA 去参加呢 Abaca 不去参加这BC 那不就三种可能嘛 2 来同样这里是什么 Sine sine 是奇函数 (这里的Sine明明是一个单词,但却首字母大写) 更新前的版本应该至少是2、3个月前的版本了,具体版本号由于更新覆盖,好像查不到了。 我想恢复到以前的状况,请问有办法吗? # Name Version Build Channel _libgcc_mutex 0.1 conda_forge conda-forge _openmp_mutex 4.5 2_gnu conda-forge absl-py...
在使用model = Paraformer(model_dir, batch_size=1, device_id=0) 加载权重之后,在进行识别的时候,无论什么输入,都会打印 input wav is silence or noise 在libtorch\funasr_torch中查看paraformer_bin.py,打开except中的错误提示注释,此时再次进行识别,报出的具体错误是two device 出现在outputs = self.ort_infer(feats.cuda(), feats_len.cuda())这里 请问这个项目是不支持gpu加速么