DiffuseStyleGesture icon indicating copy to clipboard operation
DiffuseStyleGesture copied to clipboard

音频维度问题

Open YoungSeng opened this issue 1 year ago • 1 comments

关于DiffuseStyleGesture+提取出的特征的维度,提取音频特征的维度为什么要这样设置:40+64+2+2+1024+1

为什么MFCC是40,log-mel是64,韵律特征是4等等,这样设置有什么特别的用意吗,为什么要这样取特征的维度

YoungSeng avatar Jan 12 '24 16:01 YoungSeng

正如论文中所写的,这是一个冗余的特征,发现使用似乎显示更多的音频特征,能够使模型的表现更好;这是一个超参数,一般提取完直接用的是这些维度,当然可以调整,但是对效果应该不敏感。比如WavLM就是768维度的,large就是1024维度的。

YoungSeng avatar Jan 12 '24 16:01 YoungSeng