Yixuan Zhou (周逸轩)

Results 3 comments of Yixuan Zhou (周逸轩)

你好,合成不出声音我推测是因为训练并未合理收敛,看图中这次训练的loss仍存在很大问题,不仅是分类器的性能(phone/speaker loss)还是声学模型方面(mel/duration/pitch/energy loss)。 正常loss曲线可参考下图 ![image](https://user-images.githubusercontent.com/63361337/209809923-3d985331-3611-453a-90ec-e4c56a8616b0.png) ![image](https://user-images.githubusercontent.com/63361337/209809977-31ab1777-1e71-42f2-afc2-c2a783a4d1aa.png)

你好,libriTTS我们是用的openslr上下载的数据集,关于预处理部分代码脚本和ming024/FastSpeech2也基本一致,你可以先判断下是哪一步出的问题导致文本和语音对不上。 以下是我重新处理的一些流程。 下载解压好LibriTTS数据集: ![image](https://user-images.githubusercontent.com/63361337/208362486-23268161-7e56-4a09-9ab6-b44f20e12cf7.png) 第一步:执行prepare_align.py,按照说话人目录获得文本、语音成对的lab标注和wav文件,可检查是否对应; ![image](https://user-images.githubusercontent.com/63361337/208362572-3f9db1d1-31cd-4984-8cb4-c422d8d6b218.png) 第二步:下载对齐文件TextGrid放到指定目录下,这里也可以检查下对齐结果是正常; ![image](https://user-images.githubusercontent.com/63361337/208426532-e9385be3-5d8d-4967-ade5-613683ecceea.png) ![image](https://user-images.githubusercontent.com/63361337/208425995-39931eb8-93fd-46b4-995b-cb792f56efbc.png) 第三步:执行preprocess.py,获得train-clean-100/dev-clean/test-clean.txt等文件 以及 duration/pitch/energy/mel等数据。 ![image](https://user-images.githubusercontent.com/63361337/208426218-e525c963-d1bc-439d-aa5b-c09a97b2b659.png) ![image](https://user-images.githubusercontent.com/63361337/208426325-d22b233c-b3c9-48fc-9b99-0d9ca38ba319.png)

https://www.openslr.org/60/.