PaddleSpeech 声纹识别的准确率问题，我们应用过程中只有71%，这是正常水平吗？

声纹识别的准确率问题，我们应用过程中只有71%，这是正常水平吗？

Open zhaoyiyong opened this issue 1 year ago • 4 comments

说明： 1、我们分别采样了7个人的声音，每个人采样三段声音。将这些声音做为基础声音模版库； 2、第一句:说的是一句简短的中文；第二句:说的是0-9的数字；第三句：说的是另一句不同的中文； 3、然后将这21个声音分别从中找到最相似的声纹； 4、实际验证结果是非常不理想，请帮忙指出我们流程哪里出错了，以及如何进行改进。我们是真的希望能够将其应用到实际业务场景中。 5、总共21次比对，准确找到的：15；找错人的：6；准确率只有71%。

明细结果：每个语音声纹最相似的语音，以及score。（score 的计算方法：paddlespeech vector --task score --input ' ') zhao1.wav

1 zhao3.wav 0.7540673613548279 zhao2.wav

1 zhao1.wav 0.657843291759491 zhao3.wav

1 zhao1.wav 0.7540673613548279 liu1.wav

1 liu3.wav 0.8753328919410706 liu2.wav

1 liu1.wav 0.5090296864509583 liu3.wav

1 liu1.wav 0.8753328919410706 chen1.wav

1 song1.wav 0.6430302858352661 chen2.wav

1 chen1.wav 0.601645827293396 chen3.wav

1 he3.wav 0.6503283381462097 huo1.wav

1 huo3.wav 0.6945995092391968 huo2.wav

1 huo1.wav 0.6929069757461548 huo3.wav

1 huo1.wav 0.6945995092391968 he1.wav

1 yu3.wav 0.657242476940155 he2.wav

1 huo1.wav 0.5130718350410461 he3.wav

1 he1.wav 0.6525829434394836 song1.wav

1 song3.wav 0.7202233076095581 song2.wav

1 song3.wav 0.7258925437927246 song3.wav

1 song2.wav 0.7258925437927246 yu1.wav

1 yu3.wav 0.6325151920318604 yu2.wav

1 huo2.wav 0.659753143787384 yu3.wav

1 he1.wav 0.657242476940155

Aug 31 '22 03:08 zhaoyiyong

问了大家方便分析。我上传一个文件。 result.txt

Aug 31 '22 03:08 zhaoyiyong

模型实际应用需要适配，不是直接拿来用就可以的。效果需要调优的。

Aug 31 '22 03:08 zh794390558

能指导如何进行调优吗？我们实际应用也没有特别的要求，只是希望提高声纹的准确率。能够做到“听声识人”

Aug 31 '22 08:08 zhaoyiyong

用业务数据训练即可。流程参看example/voxceleb的脚本。

Sep 01 '22 01:09 zh794390558

PaddleSpeech PaddleSpeech copied to clipboard

声纹识别的准确率问题，我们应用过程中只有71%，这是正常水平吗？

明细结果：每个语音声纹最相似的语音，以及score。（score 的计算方法：paddlespeech vector --task score --input ' ') zhao1.wav

1 zhao3.wav 0.7540673613548279 zhao2.wav

1 zhao1.wav 0.657843291759491 zhao3.wav

1 zhao1.wav 0.7540673613548279 liu1.wav

1 liu3.wav 0.8753328919410706 liu2.wav

1 liu1.wav 0.5090296864509583 liu3.wav

1 liu1.wav 0.8753328919410706 chen1.wav

1 song1.wav 0.6430302858352661 chen2.wav

1 chen1.wav 0.601645827293396 chen3.wav

1 he3.wav 0.6503283381462097 huo1.wav

1 huo3.wav 0.6945995092391968 huo2.wav

1 huo1.wav 0.6929069757461548 huo3.wav

1 huo1.wav 0.6945995092391968 he1.wav

1 yu3.wav 0.657242476940155 he2.wav

1 huo1.wav 0.5130718350410461 he3.wav

1 he1.wav 0.6525829434394836 song1.wav

1 song3.wav 0.7202233076095581 song2.wav

1 song3.wav 0.7258925437927246 song3.wav

1 song2.wav 0.7258925437927246 yu1.wav

1 yu3.wav 0.6325151920318604 yu2.wav

1 huo2.wav 0.659753143787384 yu3.wav

PaddleSpeech
PaddleSpeech copied to clipboard