Yixuan Zhou (周逸轩) comments

Results 3 comments of


                                            Yixuan Zhou (周逸轩)

你好，关于AIshell3数据的训练问题

你好，合成不出声音我推测是因为训练并未合理收敛，看图中这次训练的loss仍存在很大问题，不仅是分类器的性能（phone/speaker loss）还是声学模型方面（mel/duration/pitch/energy loss）。正常loss曲线可参考下图 ![image](https://user-images.githubusercontent.com/63361337/209809923-3d985331-3611-453a-90ec-e4c56a8616b0.png) ![image](https://user-images.githubusercontent.com/63361337/209809977-31ab1777-1e71-42f2-afc2-c2a783a4d1aa.png)

关于libriTTS数据集

你好，libriTTS我们是用的openslr上下载的数据集，关于预处理部分代码脚本和ming024/FastSpeech2也基本一致，你可以先判断下是哪一步出的问题导致文本和语音对不上。以下是我重新处理的一些流程。下载解压好LibriTTS数据集： ![image](https://user-images.githubusercontent.com/63361337/208362486-23268161-7e56-4a09-9ab6-b44f20e12cf7.png) 第一步：执行prepare_align.py，按照说话人目录获得文本、语音成对的lab标注和wav文件，可检查是否对应； ![image](https://user-images.githubusercontent.com/63361337/208362572-3f9db1d1-31cd-4984-8cb4-c422d8d6b218.png) 第二步：下载对齐文件TextGrid放到指定目录下，这里也可以检查下对齐结果是正常； ![image](https://user-images.githubusercontent.com/63361337/208426532-e9385be3-5d8d-4967-ade5-613683ecceea.png) ![image](https://user-images.githubusercontent.com/63361337/208425995-39931eb8-93fd-46b4-995b-cb792f56efbc.png) 第三步：执行preprocess.py，获得train-clean-100/dev-clean/test-clean.txt等文件以及 duration/pitch/energy/mel等数据。 ![image](https://user-images.githubusercontent.com/63361337/208426218-e525c963-d1bc-439d-aa5b-c09a97b2b659.png) ![image](https://user-images.githubusercontent.com/63361337/208426325-d22b233c-b3c9-48fc-9b99-0d9ca38ba319.png)

关于libriTTS数据集

https://www.openslr.org/60/.