FunASR issues

批量处理音频事后，我每次执行asr的时候，都会执行load sv model params 这个操作

批量处理音频的时候，每个音频都会都会执行load sv model params 这个操作，模型不是已经加载到显存了吗？这个操作会消耗大量的时间，如何通过设置，不再执行这个操作呢？

aofengdaxia

paraformer-zh支持的语音格式

paraformer-zh看文档是需要16000采样的单通道音频，能支持双通道么

wuchunlong-comac

question

Fix incorrect assignment of 'end' attribute to 'start'

1

Fix incorrect assignment of end timestamp in sentence extraction The end timestamp for each sentence in the rec_result was erroneously assigned as the start timestamp.

nsdou

用最新的版本，会出现NameError: name 'ClusterBackend' is not defined 报错

2

我在colab上使用funasr,基本上每天都会使用，每次使用时都是通过git clone 克隆最新的文件，但是昨天使用funasr进行语音识别时，没有成功，出现报错： --------------------------------------------------------------------------- NameError Traceback (most recent call last) in () 3 # paraformer-zh is a multi-functional asr model 4 # use vad, punc, spk or not as you...

eleven-monkey

bug

同一mp4重复运行，spk结果不一样

1

#### 同一个MP4文件，里面只有两个角色，执行两次识别结果中spk不一样，少部分呈现0，1互换，请问一下有遇到的吗，怎么解决 #### 下图中，左边是第一次结果，右边是第二次结果，虚线隔开的spk不一样 ![1](https://github.com/alibaba-damo-academy/FunASR/assets/39087265/08a13a97-f082-43d7-abd5-cd6247ffb99c) ####环境如下 - Ubuntu 20.04.5 - FunASR 1.0.22 - PyTorch 2.2.2 - pip 安装funasr - Python 3.8.19 - GPU (V100 - CUDA/cuDNN 11.8

GioGioBond

question

采用fp16精度训练报错

3

Notice: In order to resolve issues more efficiently, please raise issue following the template. （注意：为了更加高效率解决您遇到的问题，请按照模板提问，补充细节） ## 🐛 Bug ### To Reproduce Steps to reproduce the behavior (**always include the command...

uloveqian2021

bug

微调会自动删除ep文件, 导致微调结束后找不到需要ep文件

3

## 🐛 Bug > 微调会自动删除ep文件, 导致微调结束后找不到需要ep文件 #### Code sample 训练参数 ``` torchrun \ --nnodes 1 \ --node_rank 0 \ --nproc_per_node ${gpu_num} \ ../../../funasr/bin/train.py \ ++model="${model_name_or_model_dir}" \ ++train_data_set_list="${train_data}" \ ++valid_data_set_list="${val_data}" \...

bird-9

bug

fun_text_processing会支持C++吗？

## ❓ Questions and Help wetext有c++的runtime，但是他只有中文，不满足需求 funtext可以支持到c++吗

yuyun2000

question

识别结果存在循环输出或输出混乱问题

2

## 🐛 Bug 当我在模型仓库iic/speech_paraformer_asr_nat-zh-cn-8k-common-vocab8358-tensorflow1的网页端，测试一条音频（33秒） https://github.com/WjMessi1/Error_wav_and_model/blob/9236ef24d466dbd973c63722ff105e3cb3598f8b/test_wav_overfit.wav 总是会把之后识别的结果，重复插入到之前的某个位置（如下图中的新庄新南新村），怀疑是输出结果时存在问题，导致输出顺序混乱。下面测试的这句话，准确的label应该是：中华人民共和国。你们一直莫名其妙的。八七七四。五零七。电话卡。销售。踢皮球。啥状态啊？不诈骗。注销。揭阳市。两天。核验完。参与参与一点。就是点进去以后。这个莘庄莘南新村。莘庄，莘南新村。当我用自己finetune训练的模型测试时，也会遇见这个问题： ### Environment - FunASR Version (e.g., 1.0.25)

WjMessi1

bug

FunASR
FunASR copied to clipboard

Metadata

批量处理音频事后，我每次执行asr的时候，都会执行load sv model params 这个操作

funasr里的vad模块有阈值可以调吗?

paraformer-zh支持的语音格式

Fix incorrect assignment of 'end' attribute to 'start'

用最新的版本，会出现NameError: name 'ClusterBackend' is not defined 报错

同一mp4重复运行，spk结果不一样

采用fp16精度训练报错

微调会自动删除ep文件, 导致微调结束后找不到需要ep文件

fun_text_processing会支持C++吗？

识别结果存在循环输出或输出混乱问题

← Metadata

Owner

Metadata

FunASR FunASR copied to clipboard

Metadata

← Metadata

Owner

Metadata

FunASR
FunASR copied to clipboard