YQ
YQ
两个建议可以试试 1. 确认下有没有对齐,主要是duration. 2. 从AIshell3 finetune过来,或者合在一起,添加一个新ID
please use this commit: c008dd766d4c72709864df6d41854b44ccf96eea git reset c008dd766d4c72709864df6d41854b44ccf96eea
Sorry for late reply. I should fix this error by opening another branch for aishell3 (multispeaker with speaker embedding), but since I don't have enough time, a simple solution to...
旧版本:可使用biaobei分支:git checkout biaobei. 新版本:试试mtts分支,以后只维护这个分支。
目前不支持呢。需要数据集。
通过MFA得到。MFA: https://montreal-forced-aligner.readthedocs.io/en/latest/example.html
不是很明白你的问题啊,可否说细一点
采用音素的方式可以降低词典的大小,但是降得也不多,能降到1/4? 我觉得400个音素和1600个拼音没有数量级上的差别。再进一步,音素可以降为字母对吧,降到几个未必就好。直接用拼音的好处是端到端。其实用汉字也可以,对于实验的这两个数据集,只要过拟合控制得好(dropout够大),4000个汉字和1600个拼音也没有本质的区别。在embedding阶段,那个出现得少的token自然会向发音类似但是出现次数很多的token靠近,在空间中他们并不『孤独』。以上是个人意见,纯交流探讨哈~
从最优化的角度来考虑,出现最多的汉字会主导网络权重,而出现少但是同音的汉字只有向这些『大佬』靠近才能使得网络最优,不然网络又得花精力去照顾这些偶尔出现的同音字,对吧?
find `pwd`/ --type f > vox_files.txt note the `` here