PaddleSpeech icon indicating copy to clipboard operation
PaddleSpeech copied to clipboard

怎样对多人对话音频,进行说话人区分?

Open BeyondLightYear opened this issue 2 years ago • 3 comments

对多人对话的音频,想区分不同的人,在哪个时间区间说了什么话。该使用语音分类还是声纹识别呢?如何实现呢?谢谢。

BeyondLightYear avatar Jun 21 '22 08:06 BeyondLightYear

SV + ASR

yt605155624 avatar Jun 27 '22 10:06 yt605155624

SV + ASR

多谢多谢!尝试了一下,方案是: 1 切分语音片段 --> 2 声纹识别(比较切片的声纹 区分不同的说话人 但比较耗时) --> 3 结合语音片段 和 整个音频的asr结果

又有了新问题: 1 不能很好的分割音频片段(即:一个片段只包含一个人的语音) 2 对电话录音,声纹识别的效果似乎不太好(2人以上的对话 处理起来也很耗时) 3 asr的识别结果(无时间戳) 和 音频片段无法很好对应起来 麻烦多多指点一下,我的方案不合理的部分,或者能更具体的说一下咱们paddle的方案吗? 万分感谢!

BeyondLightYear avatar Jul 28 '22 02:07 BeyondLightYear

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/ami/sd0 speaker diarization,区分不同的说话人, https://github.com/PaddlePaddle/PaddleSpeech/pull/1850 可以看下这个pr,time stamp已经添加。所以结合起来做。ps 电话录音,看具体是什么问题,杂音是否很多,还耗时在哪里,都可以说一下。

SmileGoat avatar Jul 28 '22 03:07 SmileGoat