Yixuan Zhou (周逸轩)
Yixuan Zhou (周逸轩)
你好,合成不出声音我推测是因为训练并未合理收敛,看图中这次训练的loss仍存在很大问题,不仅是分类器的性能(phone/speaker loss)还是声学模型方面(mel/duration/pitch/energy loss)。 正常loss曲线可参考下图  
你好,libriTTS我们是用的openslr上下载的数据集,关于预处理部分代码脚本和ming024/FastSpeech2也基本一致,你可以先判断下是哪一步出的问题导致文本和语音对不上。 以下是我重新处理的一些流程。 下载解压好LibriTTS数据集:  第一步:执行prepare_align.py,按照说话人目录获得文本、语音成对的lab标注和wav文件,可检查是否对应;  第二步:下载对齐文件TextGrid放到指定目录下,这里也可以检查下对齐结果是正常;   第三步:执行preprocess.py,获得train-clean-100/dev-clean/test-clean.txt等文件 以及 duration/pitch/energy/mel等数据。  
https://www.openslr.org/60/.