PaddleSpeech icon indicating copy to clipboard operation
PaddleSpeech copied to clipboard

声纹识别和所说的话内容应该不相关吧,但是测试却发现不是这样的

Open zhaoyiyong opened this issue 1 year ago • 3 comments

首先我录制了三段语音做为模版文件: zhao1.wav:说的是一句简短的中文; zhao2.wav:说的是0-9的数字; zhao3.wav:说的是另一句不同的中文; 然后我按照模版文件内容再生成三个录音: file1.wav和zhao1.wav,file2.wav和zhao2.wav,file3.wav和zhao3.wav的内容分别相同。 然后两两做score,得出的结果是: zhao1.wav(file1.wav):0.7422892451286316;zhao1.wav(filé.wav):0.6398638486862183;zhao1(file3.wav):0.6861986517906189 zhao2.wav(file1.wav):0.43911170959472656;zhao2.wav(filé.wav):0.7633090019226074;zhao2(file3.wav):0.4422371983528137 zhao3.wav(file1.wav):0.6625332236289978;zhao3.wav(filé.wav):0.6106154322624207;zhao3(file3.wav):0.7869642972946167 可以看到zhao1.wav(file1.wav),zhao2.wav(filé.wav),zhao3(file3.wav)得分最高。 这如何解释呢?

zhaoyiyong avatar Aug 30 '22 10:08 zhaoyiyong

建议使用大一点的测试集来测试相关的性能;embedding的方式来做声纹识别,embedding中会含有部分的文本信息。

SmileGoat avatar Aug 30 '22 11:08 SmileGoat

以上是我做了大量测试得出的规律。上面的信息就是抽取的特例。 “embedding的方式来做声纹识别,embedding中会含有部分的文本信息。”,是否可以这样理解,我们现在提供的声纹识别模型是和所说的内容相关的,不能是纯粹的声纹识别。 这些对我们做应用设计非常重要的。

zhaoyiyong avatar Aug 31 '22 02:08 zhaoyiyong

所谓的纯粹的声纹特征是没有的,应用设计可以采用几种方式来削弱,声纹系统前面级联一个asr系统,要求文本录用一致。eg 都要求是数字“234245”,或者录制多条不同语句,提取特征后做平均,再作为特征。

声纹特征信息可以参考如下论文:Raj D, Snyder D, Povey D, et al. Probing the information encoded in x-vectors[C]//2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2019: 726-733.

SmileGoat avatar Sep 01 '22 08:09 SmileGoat