PaddleSpeech 声纹识别和所说的话内容应该不相关吧，但是测试却发现不是这样的

声纹识别和所说的话内容应该不相关吧，但是测试却发现不是这样的

Open zhaoyiyong opened this issue 2 years ago • 3 comments

首先我录制了三段语音做为模版文件： zhao1.wav:说的是一句简短的中文； zhao2.wav:说的是0-9的数字； zhao3.wav：说的是另一句不同的中文；然后我按照模版文件内容再生成三个录音： file1.wav和zhao1.wav,file2.wav和zhao2.wav,file3.wav和zhao3.wav的内容分别相同。然后两两做score，得出的结果是： zhao1.wav(file1.wav):0.7422892451286316;zhao1.wav(filé.wav):0.6398638486862183;zhao1(file3.wav):0.6861986517906189 zhao2.wav(file1.wav):0.43911170959472656;zhao2.wav(filé.wav):0.7633090019226074;zhao2(file3.wav):0.4422371983528137 zhao3.wav(file1.wav):0.6625332236289978;zhao3.wav(filé.wav):0.6106154322624207;zhao3(file3.wav):0.7869642972946167 可以看到zhao1.wav(file1.wav)，zhao2.wav(filé.wav)，zhao3(file3.wav)得分最高。这如何解释呢？

Aug 30 '22 10:08 zhaoyiyong

建议使用大一点的测试集来测试相关的性能；embedding的方式来做声纹识别，embedding中会含有部分的文本信息。

Aug 30 '22 11:08 SmileGoat

以上是我做了大量测试得出的规律。上面的信息就是抽取的特例。 “embedding的方式来做声纹识别，embedding中会含有部分的文本信息。”，是否可以这样理解，我们现在提供的声纹识别模型是和所说的内容相关的，不能是纯粹的声纹识别。这些对我们做应用设计非常重要的。

Aug 31 '22 02:08 zhaoyiyong

所谓的纯粹的声纹特征是没有的，应用设计可以采用几种方式来削弱，声纹系统前面级联一个asr系统，要求文本录用一致。eg 都要求是数字“234245”，或者录制多条不同语句，提取特征后做平均，再作为特征。

声纹特征信息可以参考如下论文：Raj D, Snyder D, Povey D, et al. Probing the information encoded in x-vectors[C]//2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2019: 726-733.

Sep 01 '22 08:09 SmileGoat

PaddleSpeech PaddleSpeech copied to clipboard

声纹识别和所说的话内容应该不相关吧，但是测试却发现不是这样的

PaddleSpeech
PaddleSpeech copied to clipboard