mandarin-tts
mandarin-tts copied to clipboard
name_py_hz_dur.txt中的duration是怎么生成的,原数据集的标注文件中没有,拿其他数据集来训练试试
如以下第四列的内容: SSB06230173|sil ta1 sil ai4 ni3 er2 zi5 sil|sil 他 爱 你 儿 子 sil|9 14 4 16 20 11 22 29 SSB06230436|sil chong2 qing4 shi2 mu4 men5 sil|sil 重 庆 实 木 门 sil|10 22 19 25 19 18 35 SSB06230186|sil gei3 bie2 ren2 liao2 sang1 yong4 le5 sil|sil 给 别 人 疗 伤 用 了 sil|9 7 16 20 13 18 21 8 36
通过MFA得到。MFA: https://montreal-forced-aligner.readthedocs.io/en/latest/example.html
好的,谢谢
你好 你这样建模的粒度是不是有点大 泛化能力也欠缺
不是很明白你的问题啊,可否说细一点
不是很明白你的问题啊,可否说细一点
就是text2id那块 你直接用的vocab来映射id 这样维度是不是有点大?假如某个音节训练数据中没得 是不是泛化就有点问题?输入单元粒度太大了 也可以交流一下
采用音素的方式可以降低词典的大小,但是降得也不多,能降到1/4? 我觉得400个音素和1600个拼音没有数量级上的差别。再进一步,音素可以降为字母对吧,降到几个未必就好。直接用拼音的好处是端到端。其实用汉字也可以,对于实验的这两个数据集,只要过拟合控制得好(dropout够大),4000个汉字和1600个拼音也没有本质的区别。在embedding阶段,那个出现得少的token自然会向发音类似但是出现次数很多的token靠近,在空间中他们并不『孤独』。以上是个人意见,纯交流探讨哈~
从最优化的角度来考虑,出现最多的汉字会主导网络权重,而出现少但是同音的汉字只有向这些『大佬』靠近才能使得网络最优,不然网络又得花精力去照顾这些偶尔出现的同音字,对吧?
通过MFA得到。MFA: https://montreal-forced-aligner.readthedocs.io/en/latest/example.html
感谢分享!我目前也在尝试用自制数据集训练,使用MFA来进行duration预测,但预测效果和给定内容并不相同,且没看出来明显的关联或转化关系。请问得到mfa的预测结果之后该怎样进一步处理?
目标音频:SSB10720003.wav 给定标签:SSB10720003|sil yi2 mou2 zhong3 fang1 shi4 gong4 xiang3 chu1 qu4 sil|sil 以 某 种 方 式 共 享 出 去 sil|26 10 16 21 14 21 15 20 15 31 24 mfa预测结果: item [1]: class = "IntervalTier" name = "words" xmin = 0 xmax = 2.456485260770975 intervals: size = 11 intervals [1]: xmin = 0 xmax = 0.3 text = "" intervals [2]: xmin = 0.3 xmax = 0.45 text = "yi2" intervals [3]: xmin = 0.45 xmax = 0.62 text = "mou2" intervals [4]: xmin = 0.62 xmax = 1 text = "zhong3" intervals [5]: xmin = 1 xmax = 1.21 text = "fang1" intervals [6]: xmin = 1.21 xmax = 1.26 text = "shi4" intervals [7]: xmin = 1.26 xmax = 1.4 text = "gong4" intervals [8]: xmin = 1.4 xmax = 1.65 text = "xiang3" intervals [9]: xmin = 1.65 xmax = 2 text = "chu1" intervals [10]: xmin = 2 xmax = 2.16 text = "qu4" intervals [11]: xmin = 2.16 xmax = 2.456485260770975 text = ""