mandarin-tts name_py_hz_dur.txt中的duration是怎么生成的，原数据集的标注文件中没有，拿其他数据集来训练试试

name_py_hz_dur.txt中的duration是怎么生成的，原数据集的标注文件中没有，拿其他数据集来训练试试

Open LeventZheng opened this issue 3 years ago • 8 comments

Jul 05 '21 13:07 LeventZheng

通过MFA得到。MFA: https://montreal-forced-aligner.readthedocs.io/en/latest/example.html

Jul 06 '21 07:07 ranchlai

好的，谢谢

Jul 08 '21 12:07 LeventZheng

你好你这样建模的粒度是不是有点大泛化能力也欠缺

Jul 12 '21 09:07 Pydataman

不是很明白你的问题啊，可否说细一点

Jul 12 '21 09:07 ranchlai

不是很明白你的问题啊，可否说细一点

就是text2id那块你直接用的vocab来映射id 这样维度是不是有点大？假如某个音节训练数据中没得是不是泛化就有点问题？输入单元粒度太大了也可以交流一下

Jul 12 '21 11:07 Pydataman

采用音素的方式可以降低词典的大小，但是降得也不多，能降到1/4? 我觉得400个音素和1600个拼音没有数量级上的差别。再进一步，音素可以降为字母对吧，降到几个未必就好。直接用拼音的好处是端到端。其实用汉字也可以，对于实验的这两个数据集，只要过拟合控制得好（dropout够大），4000个汉字和1600个拼音也没有本质的区别。在embedding阶段，那个出现得少的token自然会向发音类似但是出现次数很多的token靠近，在空间中他们并不『孤独』。以上是个人意见，纯交流探讨哈~

Jul 13 '21 10:07 ranchlai

从最优化的角度来考虑，出现最多的汉字会主导网络权重，而出现少但是同音的汉字只有向这些『大佬』靠近才能使得网络最优，不然网络又得花精力去照顾这些偶尔出现的同音字，对吧？

Jul 13 '21 10:07 ranchlai

通过MFA得到。MFA: https://montreal-forced-aligner.readthedocs.io/en/latest/example.html

感谢分享！我目前也在尝试用自制数据集训练，使用MFA来进行duration预测，但预测效果和给定内容并不相同，且没看出来明显的关联或转化关系。请问得到mfa的预测结果之后该怎样进一步处理？

目标音频：SSB10720003.wav 给定标签：SSB10720003|sil yi2 mou2 zhong3 fang1 shi4 gong4 xiang3 chu1 qu4 sil|sil 以某种方式共享出去 sil|26 10 16 21 14 21 15 20 15 31 24 mfa预测结果： item [1]: class = "IntervalTier" name = "words" xmin = 0 xmax = 2.456485260770975 intervals: size = 11 intervals [1]: xmin = 0 xmax = 0.3 text = "" intervals [2]: xmin = 0.3 xmax = 0.45 text = "yi2" intervals [3]: xmin = 0.45 xmax = 0.62 text = "mou2" intervals [4]: xmin = 0.62 xmax = 1 text = "zhong3" intervals [5]: xmin = 1 xmax = 1.21 text = "fang1" intervals [6]: xmin = 1.21 xmax = 1.26 text = "shi4" intervals [7]: xmin = 1.26 xmax = 1.4 text = "gong4" intervals [8]: xmin = 1.4 xmax = 1.65 text = "xiang3" intervals [9]: xmin = 1.65 xmax = 2 text = "chu1" intervals [10]: xmin = 2 xmax = 2.16 text = "qu4" intervals [11]: xmin = 2.16 xmax = 2.456485260770975 text = ""

Dec 19 '22 06:12 KevinBaylor

mandarin-tts mandarin-tts copied to clipboard

name_py_hz_dur.txt中的duration是怎么生成的，原数据集的标注文件中没有，拿其他数据集来训练试试

mandarin-tts
mandarin-tts copied to clipboard