FunASR
FunASR copied to clipboard
短音频重复拼接为长音频后,声纹识别出现严重错误
trafficstars
🐛 Bug
我使用该命令对3分钟的wav音频复制40遍拼接为一个两小时左右的音频
ffmpeg -f concat -safe 0 -i file_list.txt -c copy output.wav
其中file_list.txt为:
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
file '/usr/local/bohui/test2/wcf103_1.wav'
.........
对生成的output.wav文件通过下面的代码进行分析:
import time
from funasr import AutoModel
# V4 增加说话人识别
model = AutoModel(model="/workspace/model/download/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch", model_revision="v2.0.4", \
vad_model="/workspace/model/download/speech_fsmn_vad_zh-cn-16k-common-pytorch", vad_model_revision="v2.0.4", \
punc_model="/workspace/model/download/punc_ct-transformer_zh-cn-common-vocab272727-pytorch", punc_model_revision="v2.0.4",\
spk_model="/workspace/model/download/speech_campplus_sv_zh-cn_16k-common", spk_model_revision="v2.0.2",
)
res = model.generate(input=f"/work/output.wav",
batch_size_s=300, device='cuda')
发现声纹识别人数有100+,但其实仅有一个人说话,而且转文字的效果也不是特别好。
重要的是
对原始的3分钟视频进行识别,声纹的识别结果是正确的,但是用同一个音频重复多次进行拼接,就会出现问题
模型是都对于重复的音频片段识别效果不好?不太理解这个问题
音频文件:
链接:https://pan.baidu.com/s/1AKTXexp_6aA7DdXnTSZ-Eg 提取码:xv11