FunASR
FunASR copied to clipboard
A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
## ❓ Questions and Help #### What is your question? 训练集明显不会有unknown这一类,但是推理结果可以有unknown,而且禁用unknown这一类别之后,其他类别的logits不会受影响 ,ctc_logits是根据什么分配给unknown这一类别的呢?
# 热词无效问题 ## 问题 runtime/python/websocket/funasr_wss_server.py 作为服务端时,客户端传参热词没有效果 ## 客户端建立连接时参数如下: ` { "chunk_size": [ 5, 10, 5 ], "wav_name": "h5", "is_speaking": true, "chunk_interval": 10, "itn": false, "mode": "2pass", "hotwords": "{\"张謇\":30}" } }`...
我使用了官方的sdk:runtime/docs/SDK_advanced_guide_offline_gpu_zh.md 安装文档里的部署安装了,我想在基础上加入说话人识别,该在哪个文件里修改代码?
Notice: In order to resolve issues more efficiently, please raise issue following the template. (注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节) ## 🐛 Bug 使用最新版本的实时听写服务镜像funasr-runtime-sdk-online-cpu-0.1.12,使用websocket的方式连接到服务,在线上运行一段时间之后,有少量的连接调用服务,观察到容器内存持续上升且不释放。  ### To Reproduce Steps to reproduce the behavior (**always include...
# 0. 微调热词模型自动结束 我设置了训练轮次为1000次,使用了300多条的数据集微调,下面是我的具体配置参数: ```shell torchrun $DISTRIBUTED_ARGS \ ../../../funasr/bin/train_ds.py \ ++model="${model_name_or_model_dir}" \ ++train_data_set_list="${train_data}" \ ++valid_data_set_list="${val_data}" \ ++dataset="AudioDatasetHotword" \ ++dataset_conf.index_ds="IndexDSJsonl" \ ++dataset_conf.data_split_num=1 \ ++dataset_conf.batch_sampler="BatchSampler" \ ++dataset_conf.batch_size=30000 \ ++dataset_conf.sort_size=1024 \ ++dataset_conf.batch_type="token" \...
MacOS:14.2 (23C64) Apple M2 Pro xCode:Version 15.1 (15C65) 按照readme文档,先pod install,然后添加4个文件后,build报错:  git clone https://gitee.com/KingJamesGyq/json.git 下载,json相关文件并导入到项目中,继续build,报错: 导入third_party下的kaldi,继续build,报错: 导入openst下的fst文件夹,继续build,报了一堆错误:
# 0. 使用sensevoice中的sh脚本训练后的模型比原始模型大 训练后的模型比原始模型大很多,原始模型不到1GB,微调训练后模型文件达到了2.8GB,请问这个是正常的么?如果要使得训练后的模型大小和原始模型一样,那么我需要修改哪些地址。 谢谢,Thanks # 1. 需要使用多少数据集微调才有效果 请问一般要使用多少小时的数据集微调? # 2. 微调过程中val/loss曲线一直没有下降 微调过程中val/loss曲线一直没有下降,并且train/loss波动很大,请问这个是lr设置太小了吗?如果使用2000句话微调,那么这个lr应该设置多少,这个值是与batch_size大小有关系吗?训练中这个batch_type推荐使用token还是example或者是length?更推荐使用哪个类型?
Notice: In order to resolve issues more efficiently, please raise issue following the template. (注意:为了更加高效率解决您遇到的问题,请按照模板提问,补充细节) ## ❓ Questions and Help ### Before asking: 1. search the issues. 2. search the...
## 🐛 Bug ```shell raceback (most recent call last): | 0/1 [00:00