PaddleSpeech 怎样对多人对话音频，进行说话人区分？

怎样对多人对话音频，进行说话人区分？

Open BeyondLightYear opened this issue 3 years ago • 3 comments

对多人对话的音频，想区分不同的人，在哪个时间区间说了什么话。该使用语音分类还是声纹识别呢？如何实现呢？谢谢。

Jun 21 '22 08:06 BeyondLightYear

SV + ASR

Jun 27 '22 10:06 yt605155624

SV + ASR

多谢多谢！尝试了一下，方案是： 1 切分语音片段 --> 2 声纹识别(比较切片的声纹区分不同的说话人但比较耗时) --> 3 结合语音片段和整个音频的asr结果

又有了新问题： 1 不能很好的分割音频片段（即：一个片段只包含一个人的语音） 2 对电话录音，声纹识别的效果似乎不太好（2人以上的对话处理起来也很耗时） 3 asr的识别结果(无时间戳) 和音频片段无法很好对应起来麻烦多多指点一下，我的方案不合理的部分，或者能更具体的说一下咱们paddle的方案吗？万分感谢！

Jul 28 '22 02:07 BeyondLightYear

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/ami/sd0 speaker diarization，区分不同的说话人， https://github.com/PaddlePaddle/PaddleSpeech/pull/1850 可以看下这个pr，time stamp已经添加。所以结合起来做。ps 电话录音，看具体是什么问题，杂音是否很多，还耗时在哪里，都可以说一下。

Jul 28 '22 03:07 SmileGoat

PaddleSpeech PaddleSpeech copied to clipboard

怎样对多人对话音频，进行说话人区分？

PaddleSpeech
PaddleSpeech copied to clipboard