MaxMax2016
MaxMax2016
我也不确定叫知识蒸馏这个概念是否准确 Nix-TTS: Lightweight and End-to-End Text-to-Speech via **Module-wise Distillation** https://arxiv.org/abs/2203.15643 https://github.com/rendchevi/nix-tts https://github.com/choiHkk/nix-tts
 z_p = self.flow(z, y_mask, g=g) z_r = m_p + torch.randn_like(m_p) * torch.exp(logs_p) z_r = self.flow(z_r, y_mask, g=g, reverse=True) return o, l_length, attn, ids_slice, x_mask, y_mask, (z, z_p, z_r, m_p,...
不需要的
bert是支持英文的的https://github.com/PlayVoice/vits_chinese/blob/master/bert/vocab.txt;因为baker没有英文数据,所以是TTS不支持英文,有数据改改就能支持了。
https://github.com/Executedone/Chinese-FastSpeech2 这个项目,在主页的Referance可以看到连接
以使用音标进行建模为例: 1,首先要在建模单元列表中加入英文音标 2,将标注文本转换为建模单元(声韵母+音标) 3,将标注文本通过bert转换为韵律向量 4,根据每个汉字和单词转后得到的建模单元个数对韵律向量进行拓展 5,使用建模单元和拓展后的韵律向量训练模型
这个项目没有实现中英文混合,只是提供一种思路。
这项目只是我课堂作业的记录,不考实际使用
https://github.com/PlayVoice/vits_chinese/blob/master/vits_pinyin.py#L68~L70 需要修改这里,每个汉字对应的发音个数
按理,训练也是需要该的,否则bert和发音没对应上