YQ comments

Results 23 comments of

YQ

自己的数据，训练效果不理想

两个建议可以试试 1. 确认下有没有对齐，主要是duration. 2. 从AIshell3 finetune过来，或者合在一起，添加一个新ID

Runtime Error: Error in loading state_dict for FastSpeech2

please use this commit： c008dd766d4c72709864df6d41854b44ccf96eea git reset c008dd766d4c72709864df6d41854b44ccf96eea

Runtime Error: Error in loading state_dict for FastSpeech2

Sorry for late reply. I should fix this error by opening another branch for aishell3 (multispeaker with speaker embedding), but since I don't have enough time, a simple solution to...

Runtime Error: Error in loading state_dict for FastSpeech2

旧版本：可使用biaobei分支：git checkout biaobei. 新版本：试试mtts分支，以后只维护这个分支。

name_py_hz_dur.txt中的duration是怎么生成的，原数据集的标注文件中没有，拿其他数据集来训练试试

通过MFA得到。MFA: https://montreal-forced-aligner.readthedocs.io/en/latest/example.html

name_py_hz_dur.txt中的duration是怎么生成的，原数据集的标注文件中没有，拿其他数据集来训练试试

不是很明白你的问题啊，可否说细一点

name_py_hz_dur.txt中的duration是怎么生成的，原数据集的标注文件中没有，拿其他数据集来训练试试

采用音素的方式可以降低词典的大小，但是降得也不多，能降到1/4? 我觉得400个音素和1600个拼音没有数量级上的差别。再进一步，音素可以降为字母对吧，降到几个未必就好。直接用拼音的好处是端到端。其实用汉字也可以，对于实验的这两个数据集，只要过拟合控制得好（dropout够大），4000个汉字和1600个拼音也没有本质的区别。在embedding阶段，那个出现得少的token自然会向发音类似但是出现次数很多的token靠近，在空间中他们并不『孤独』。以上是个人意见，纯交流探讨哈~

name_py_hz_dur.txt中的duration是怎么生成的，原数据集的标注文件中没有，拿其他数据集来训练试试

从最优化的角度来考虑，出现最多的汉字会主导网络权重，而出现少但是同音的汉字只有向这些『大佬』靠近才能使得网络最优，不然网络又得花精力去照顾这些偶尔出现的同音字，对吧？

data path problem

find `pwd`/ --type f > vox_files.txt note the `` here