Automatic_Speech_Recognition icon indicating copy to clipboard operation
Automatic_Speech_Recognition copied to clipboard

I have a problem with the mfcc

Open Ostnie opened this issue 7 years ago • 6 comments

今天偶然发现,在您的程序中完成特征提取之后的npy文件里面的数据不是391,而是39n(根据不同的语音n取值不一样,有292,370等),我之前一直以为您的预处理程序处理完语料产生的就是一个长度为39的特征向量,之前接触的其他的语音识别特征提取都是一个39维的特征向量,为什么您特征提取完的矩阵这么大?后面是否有将他转化为长度为39的特征向量的操作?我并没有在您的程序中找到,望能指教,非常感谢

Ostnie avatar Nov 19 '17 13:11 Ostnie

hi, it is because that a 39 vector is feature of a time window, an audio is composed of many time windows, so the geature should be a matrix, first dimension is number of time windows, second dimension is feature vector.

2017年11月19日 下午9:16,"Ostnie" [email protected]写道:

今天偶然发现,在您的程序中完成特征提取之后的npy文件里面的数据不是391,而是39n(根据不同的语音n取值不一样,有292,370等), 我之前一直以为您的预处理程序处理完语料产生的就是一个长度为39的特征向量,之前接触的其他的语音识别特征提取都是一个39维的特征向量, 为什么您特征提取完的矩阵这么大?后面是否有将他转化为长度为39的特征向量的操作?我并没有在您的程序中找到,望能指教,非常感谢

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/zzw922cn/Automatic_Speech_Recognition/issues/48, or mute the thread https://github.com/notifications/unsubscribe-auth/ALHDkyqfy2WMKWz2QKAA5QkhNAuE_nDyks5s4CoggaJpZM4QjYCY .

zzw922cn avatar Nov 19 '17 13:11 zzw922cn

噢,那意思是说我之前对特征向量的理解一直有错误,不是一整段语音对应一个特征向量,而是每一个窗口截下来的语音数据就是一个长度为39的特征向量,这就是说在后面的处理时这整个39n的矩阵才代表这段语音的完整特征向量,不需要转化为139的形式?我的理解对吗?

Ostnie avatar Nov 19 '17 13:11 Ostnie

是的,特征矩阵大小就是windows*39。

2017年11月19日 下午9:31,"Ostnie" [email protected]写道:

噢,那意思是说我之前对特征向量的理解一直有错误,不是一整段语音对应一个特征向量,而是每一个窗口截下来的语音数据就是一个长度为39的特征向量, 这就是说在后面的处理时这整个39n的矩阵才代表这段语音的完整特征向量,不需要转化为139的形式?我的理解对吗?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/zzw922cn/Automatic_Speech_Recognition/issues/48#issuecomment-345517127, or mute the thread https://github.com/notifications/unsubscribe-auth/ALHDk7RnxtNfsFpB1ZJloCNa0V3ZarhFks5s4C2WgaJpZM4QjYCY .

zzw922cn avatar Nov 19 '17 13:11 zzw922cn

我不知道如何提取mfcc特征,生成程序需要的mfcc和label文件,能不能提供一个提取特征后的数据集的下载地址或者指导一下到底如何提取特征啊

GreatJiweix avatar Apr 03 '18 08:04 GreatJiweix

非常感谢

GreatJiweix avatar Apr 03 '18 08:04 GreatJiweix

Can someone explain how to extract the mfcc and labels from the TIMIT dataset? Thank you.

flassTer avatar Apr 28 '19 00:04 flassTer