dVectorSpeakerRecognition
dVectorSpeakerRecognition copied to clipboard
基于dVector的说话人识别keras
你好 想請問原本的論文所使用的帧拓展 做完framing和mel filter之後 (假設為300個frame, 40 mel) 1. 取中間值第150個frame的前40和後10個frame,共51個frame當作輸入 2. 從第41個fame後,取每個frame的前40和後10個frame當作輸入 以上2點並在最後攤平整合成一個[1, *]的輸入 請問是哪一個,謝謝
请问 声学特征的输入 是一帧一帧放入,还是展成一维 放入? 还有就是 您的代码中输入层7774为什么这样定义?是最长一段语音 维度*帧长的结果吗?,其余的补零
您好,我对您的程序kersaSoftmax/dnnTrain.py采用aishell数据集进行了训练,但是发现200个batch之后训练集上的识别率还为6%左右,分析了一边代码也不知道是哪里出了问题。。。请问有什么改正措施吗?
1. getTestBW里面使用的是wavPath和wavLabel做validation