mandarin-tts icon indicating copy to clipboard operation
mandarin-tts copied to clipboard

AISHELL3某些数据生成梅尔频谱失败的问题

Open SoloPro-Git opened this issue 2 years ago • 4 comments

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行 为什么要对wav的振幅向量限制在[-1,1]呢 ?

SoloPro-Git avatar Mar 28 '22 09:03 SoloPro-Git

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行 为什么要对wav的振幅向量限制在[-1,1]呢 ?

猜测作者是否是对AIShell3数据集做了一些预处理,才使用脚本跑的,能否加个好友讨论讨论模型训练上的一些问题呢 wx:FGY_0214。 有同样的疑问期待作者的回复,另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢,还是有做过调整。

EricFuma avatar Mar 30 '22 01:03 EricFuma

我也遇到了相同的问题

longglecc avatar Jun 24 '22 02:06 longglecc

我也遇到了相同的问题

我在这个项目复现不了作者的效果,mel频谱图一直是模糊的 后面转投paddlespeech那个项目了T_T

SoloPro-Git avatar Jun 24 '22 10:06 SoloPro-Git

Try set a proper sample_rate in config.yaml[fbank][sample_rate] like 48000

bjr3ady avatar Jun 30 '22 07:06 bjr3ady