mandarin-tts AISHELL3某些数据生成梅尔频谱失败的问题

AISHELL3某些数据生成梅尔频谱失败的问题

Open SoloPro-Git opened this issue 2 years ago • 4 comments

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行为什么要对wav的振幅向量限制在[-1,1]呢 ?

Mar 28 '22 09:03 SoloPro-Git

在aishell3数据中,有些wav文件通过librosa生成振幅向量的时候,振幅大小会超过1 如: SSB08870032.wav 文件的最大振幅为1.0116 导致运行wav2mel.py的时候会中断报错.

具体问题如下: 文件 /mtts/utils/stft.py 第248 、249行为什么要对wav的振幅向量限制在[-1,1]呢 ?

猜测作者是否是对AIShell3数据集做了一些预处理，才使用脚本跑的，能否加个好友讨论讨论模型训练上的一些问题呢 wx：FGY_0214。有同样的疑问期待作者的回复，另外作者开源的checkpoint是否是代码库中对应 config 配置跑出来的呢，还是有做过调整。

Mar 30 '22 01:03 EricFuma

我也遇到了相同的问题

Jun 24 '22 02:06 longglecc

我也遇到了相同的问题

我在这个项目复现不了作者的效果，mel频谱图一直是模糊的后面转投paddlespeech那个项目了T_T

Jun 24 '22 10:06 SoloPro-Git

Try set a proper sample_rate in config.yaml[fbank][sample_rate] like 48000

Jun 30 '22 07:06 bjr3ady

mandarin-tts mandarin-tts copied to clipboard

AISHELL3某些数据生成梅尔频谱失败的问题

mandarin-tts
mandarin-tts copied to clipboard