PaddleSpeech icon indicating copy to clipboard operation
PaddleSpeech copied to clipboard

声纹识别的准确率问题,我们应用过程中只有71%,这是正常水平吗?

Open zhaoyiyong opened this issue 1 year ago • 4 comments

说明: 1、我们分别采样了7个人的声音,每个人采样三段声音。将这些声音做为基础声音模版库; 2、第一句:说的是一句简短的中文;第二句:说的是0-9的数字;第三句:说的是另一句不同的中文; 3、然后将这21个声音分别从中找到最相似的声纹; 4、实际验证结果是非常不理想,请帮忙指出我们流程哪里出错了,以及如何进行改进。我们是真的希望能够将其应用到实际业务场景中。 5、总共21次比对,准确找到的:15;找错人的:6;准确率只有71%。

明细结果:每个语音声纹最相似的语音,以及score。(score 的计算方法:paddlespeech vector --task score --input ' ') zhao1.wav

1 zhao3.wav 0.7540673613548279 zhao2.wav

1 zhao1.wav 0.657843291759491 zhao3.wav

1 zhao1.wav 0.7540673613548279 liu1.wav

1 liu3.wav 0.8753328919410706 liu2.wav

1 liu1.wav 0.5090296864509583 liu3.wav

1 liu1.wav 0.8753328919410706 chen1.wav

1 song1.wav 0.6430302858352661 chen2.wav

1 chen1.wav 0.601645827293396 chen3.wav

1 he3.wav 0.6503283381462097 huo1.wav

1 huo3.wav 0.6945995092391968 huo2.wav

1 huo1.wav 0.6929069757461548 huo3.wav

1 huo1.wav 0.6945995092391968 he1.wav

1 yu3.wav 0.657242476940155 he2.wav

1 huo1.wav 0.5130718350410461 he3.wav

1 he1.wav 0.6525829434394836 song1.wav

1 song3.wav 0.7202233076095581 song2.wav

1 song3.wav 0.7258925437927246 song3.wav

1 song2.wav 0.7258925437927246 yu1.wav

1 yu3.wav 0.6325151920318604 yu2.wav

1 huo2.wav 0.659753143787384 yu3.wav

1 he1.wav 0.657242476940155

zhaoyiyong avatar Aug 31 '22 03:08 zhaoyiyong

问了大家方便分析。我上传一个文件。 result.txt

zhaoyiyong avatar Aug 31 '22 03:08 zhaoyiyong

模型实际应用需要适配,不是直接拿来用就可以的。效果需要调优的。

zh794390558 avatar Aug 31 '22 03:08 zh794390558

能指导如何进行调优吗?我们实际应用也没有特别的要求,只是希望提高声纹的准确率。能够做到“听声识人”

zhaoyiyong avatar Aug 31 '22 08:08 zhaoyiyong

用业务数据训练即可。流程参看example/voxceleb的脚本。

zh794390558 avatar Sep 01 '22 01:09 zh794390558