FunASR icon indicating copy to clipboard operation
FunASR copied to clipboard

短音频重复拼接为长音频后,声纹识别出现严重错误

Open jpyjpr opened this issue 1 year ago • 0 comments
trafficstars

🐛 Bug

我使用该命令对3分钟的wav音频复制40遍拼接为一个两小时左右的音频

ffmpeg -f concat -safe 0 -i file_list.txt -c copy output.wav

其中file_list.txt为:

file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
.........

对生成的output.wav文件通过下面的代码进行分析:

import time
from funasr import AutoModel


# V4 增加说话人识别
model = AutoModel(model="/workspace/model/download/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4", \
                  vad_model="/workspace/model/download/speech_fsmn_vad_zh-cn-16k-common-pytorch", vad_model_revision="v2.0.4", \
                  punc_model="/workspace/model/download/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", punc_model_revision="v2.0.4",\
                  spk_model="/workspace/model/download/speech_campplus_sv_zh-cn_16k-common", spk_model_revision="v2.0.2", 
                    )


res = model.generate(input=f"/work/output.wav", 
                     batch_size_s=300, device='cuda')

发现声纹识别人数有100+,但其实仅有一个人说话,而且转文字的效果也不是特别好。

重要的是

对原始的3分钟视频进行识别,声纹的识别结果是正确的,但是用同一个音频重复多次进行拼接,就会出现问题

模型是都对于重复的音频片段识别效果不好?不太理解这个问题

音频文件:

链接:https://pan.baidu.com/s/1AKTXexp_6aA7DdXnTSZ-Eg 提取码:xv11

jpyjpr avatar Mar 27 '24 09:03 jpyjpr