PaddleSpeech
PaddleSpeech copied to clipboard
声纹识别的准确率问题,我们应用过程中只有71%,这是正常水平吗?
说明: 1、我们分别采样了7个人的声音,每个人采样三段声音。将这些声音做为基础声音模版库; 2、第一句:说的是一句简短的中文;第二句:说的是0-9的数字;第三句:说的是另一句不同的中文; 3、然后将这21个声音分别从中找到最相似的声纹; 4、实际验证结果是非常不理想,请帮忙指出我们流程哪里出错了,以及如何进行改进。我们是真的希望能够将其应用到实际业务场景中。 5、总共21次比对,准确找到的:15;找错人的:6;准确率只有71%。
明细结果:每个语音声纹最相似的语音,以及score。(score 的计算方法:paddlespeech vector --task score --input ' ') zhao1.wav
1 zhao3.wav 0.7540673613548279 zhao2.wav
1 zhao1.wav 0.657843291759491 zhao3.wav
1 zhao1.wav 0.7540673613548279 liu1.wav
1 liu3.wav 0.8753328919410706 liu2.wav
1 liu1.wav 0.5090296864509583 liu3.wav
1 liu1.wav 0.8753328919410706 chen1.wav
1 song1.wav 0.6430302858352661 chen2.wav
1 chen1.wav 0.601645827293396 chen3.wav
1 he3.wav 0.6503283381462097 huo1.wav
1 huo3.wav 0.6945995092391968 huo2.wav
1 huo1.wav 0.6929069757461548 huo3.wav
1 huo1.wav 0.6945995092391968 he1.wav
1 yu3.wav 0.657242476940155 he2.wav
1 huo1.wav 0.5130718350410461 he3.wav
1 he1.wav 0.6525829434394836 song1.wav
1 song3.wav 0.7202233076095581 song2.wav
1 song3.wav 0.7258925437927246 song3.wav
1 song2.wav 0.7258925437927246 yu1.wav
1 yu3.wav 0.6325151920318604 yu2.wav
1 huo2.wav 0.659753143787384 yu3.wav
1 he1.wav 0.657242476940155
问了大家方便分析。我上传一个文件。 result.txt
模型实际应用需要适配,不是直接拿来用就可以的。效果需要调优的。
能指导如何进行调优吗?我们实际应用也没有特别的要求,只是希望提高声纹的准确率。能够做到“听声识人”
用业务数据训练即可。流程参看example/voxceleb的脚本。