MaxMax2016 comments

Results 243 comments of


                                            MaxMax2016

使用torch的高版本（>1.6.0）训练需要关闭 FP16

有些版本会崩溃，或则生成的音频有噪声

使用torch的高版本（>1.6.0）训练需要关闭 FP16

是的，训练是需要GPU的

使用torch的高版本（>1.6.0）训练需要关闭 FP16

可能要四五天的样子

使用torch的高版本（>1.6.0）训练需要关闭 FP16

初学者请问作者prosody_model.pt是怎么训练得到的

Reference For TTS [Microsoft's NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality](https://arxiv.org/abs/2205.04421) **https://github.com/Executedone/Chinese-FastSpeech2 bert prosody** https://github.com/wenet-e2e/WeTextProcessing https://github.com/jaywalnut310/vits

初学者请问作者prosody_model.pt是怎么训练得到的

是的，去掉韵律模型会呈现一个平均状态的韵律，没有韵律的起伏变化。你可以试试修改推理，屏蔽bert韵律向量 def forward(self, x, x_lengths, bert): x = self.emb(x) * math.sqrt(self.hidden_channels) # [b, t, h] b = self.emb_bert(bert) ~~x = x + b~~ x = torch.transpose(x, 1, -1) #...

大佬，有个推理的问题请赐教！

不支持

大佬，有个推理的问题请赐教！

中文能结合的

大佬，有个推理的问题请赐教！

在他的模型输入上面叠加bert向量

大佬，有个推理的问题请赐教！

不需要加什么特别的，使劲堆语料，很多人的语料，然后给每个人编号，参考vits官方仓库VCTK训练方法。