vits_chinese icon indicating copy to clipboard operation
vits_chinese copied to clipboard

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!

Results 65 vits_chinese issues
Sort by recently updated
recently updated
newest added

最近有个新项目 GPT-Sovits,好像效果还不错,作者要不要考虑一下,期待作者做的效果能比这个项目更好!我相信你Max!

使用了https://github.com/PlayVoice/vits_chinese/releases/v4.0下载的权重,以及我自己训练的模型都存在发音错误的问题, “渐渐变凉”的“liang2”读成“yang2”,“渐渐变弱”的“ruo4”读成“luo4”,有和我一样的问题吗

发现刚开始训练的时候,显存变化剧烈,且容易爆显存;过了一段时间之后,显存降下去且显存利用率比较低。 有大佬观察到这个现象吗?这是为什么呢?

Q1. 我使用作者你提供的aishell模型 + vits_infer.py代码进行推理。以及小米K2社区开源的aishell模型+ vits_infer.py代码推理。发现小米k2社区的同一个说话人声音很不清晰,这个是什么问题呢。 Q2. 如果我需要训练一个单音色的女声模型,是在作者的aishell模型上微调还是小米K2社区开源的aishell模型比较好呢?

作者好,关于 some Natural Speech Features Of Microsoft 这部分的优化代码是哪一部分呢,没有找到,请指示一下。

之前单说话人的模型,我成功移植到了jetson orin nano设备上,他是aarch64架构的嵌入式主控。现在想使用多说话人模型,但是我看新增加了WeTextProcessing ,而使用WeTextProcessing 需要使用pynini,我死活配置不好pynini。请问有什么办法不使用吗?

像bert_vits2那样,支持中英训练和中文混合句子的推理,作者会考虑推出吗。

我这边换了一套音素系统,可以训练,但是测试的时候提示是textencoder这个地方 x和b的维度不同,也就是bert提取的维度和text音素的维度对不上,大佬有建议吗 def forward(self, x, x_lengths, bert): x = self.emb(x) * math.sqrt(self.hidden_channels) # [b, t, h] b = self.emb_bert(bert) x = x + b

这里的bert支不支持英文输出?

是只需要汉字和音素就行吗?#1 #2 之类的韵律标注需要吗?