dVectorSpeakerRecognition icon indicating copy to clipboard operation
dVectorSpeakerRecognition copied to clipboard

基于dVector的说话人识别keras

Results 4 dVectorSpeakerRecognition issues
Sort by recently updated
recently updated
newest added

你好 想請問原本的論文所使用的帧拓展 做完framing和mel filter之後 (假設為300個frame, 40 mel) 1. 取中間值第150個frame的前40和後10個frame,共51個frame當作輸入 2. 從第41個fame後,取每個frame的前40和後10個frame當作輸入 以上2點並在最後攤平整合成一個[1, *]的輸入 請問是哪一個,謝謝

请问 声学特征的输入 是一帧一帧放入,还是展成一维 放入? 还有就是 您的代码中输入层7774为什么这样定义?是最长一段语音 维度*帧长的结果吗?,其余的补零

您好,我对您的程序kersaSoftmax/dnnTrain.py采用aishell数据集进行了训练,但是发现200个batch之后训练集上的识别率还为6%左右,分析了一边代码也不知道是哪里出了问题。。。请问有什么改正措施吗?

1. getTestBW里面使用的是wavPath和wavLabel做validation