YQ

Results 23 comments of YQ

两个建议可以试试 1. 确认下有没有对齐,主要是duration. 2. 从AIshell3 finetune过来,或者合在一起,添加一个新ID

please use this commit: c008dd766d4c72709864df6d41854b44ccf96eea git reset c008dd766d4c72709864df6d41854b44ccf96eea

Sorry for late reply. I should fix this error by opening another branch for aishell3 (multispeaker with speaker embedding), but since I don't have enough time, a simple solution to...

旧版本:可使用biaobei分支:git checkout biaobei. 新版本:试试mtts分支,以后只维护这个分支。

通过MFA得到。MFA: https://montreal-forced-aligner.readthedocs.io/en/latest/example.html

采用音素的方式可以降低词典的大小,但是降得也不多,能降到1/4? 我觉得400个音素和1600个拼音没有数量级上的差别。再进一步,音素可以降为字母对吧,降到几个未必就好。直接用拼音的好处是端到端。其实用汉字也可以,对于实验的这两个数据集,只要过拟合控制得好(dropout够大),4000个汉字和1600个拼音也没有本质的区别。在embedding阶段,那个出现得少的token自然会向发音类似但是出现次数很多的token靠近,在空间中他们并不『孤独』。以上是个人意见,纯交流探讨哈~

从最优化的角度来考虑,出现最多的汉字会主导网络权重,而出现少但是同音的汉字只有向这些『大佬』靠近才能使得网络最优,不然网络又得花精力去照顾这些偶尔出现的同音字,对吧?

find `pwd`/ --type f > vox_files.txt note the `` here