dVectorSpeakerRecognition
dVectorSpeakerRecognition copied to clipboard
你好 关于网络的输入
请问 声学特征的输入 是一帧一帧放入,还是展成一维 放入? 还有就是 您的代码中输入层7774为什么这样定义?是最长一段语音 维度*帧长的结果吗?,其余的补零