vits_chinese icon indicating copy to clipboard operation
vits_chinese copied to clipboard

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!

Results 65 vits_chinese issues
Sort by recently updated
recently updated
newest added

感谢大大提供这么好的repo, 我这边在用训练一个基底模型, 用版主預先訓練好的prosody.pt 來做character embedding的提取, 然後把提取出來的feature跟chinses_ipa出來的音素做對齊. 這樣算出來的feature, 每一個時間點的norm大約在10左右 不知道在加入bert feature以后有没有发现KL爆炸的问题? 我對Bert feature加入很多normalization都沒有辦法解決這個問題. 不知道版主有沒有遇到過? ``` def forward(self, x, x_lengths, bert, bert_legnths): bert_emb = self.tanh(self.bert_proj(self.tanh(bert)).transpose(1, 2)) #bert_emb = bert_emb / (torch.norm(bert_emb, dim=-1).unsqueeze(-1)...

请问一下,微调时大概训练多久。我在自己训练的模型尝试加入反向kl loss微调,反而kl loss 变大,生成效果很差

分析是以为BERT在不同语序情况下,同样的字的输出向量差异过大,造成过全连接后和音素嵌入向量相加后的输出变化过大造成的

请教在推断时,支持实时的流式输出吗?在一些应用中,例如聊天程序,需要支持实时的流式输出,否则等待推断的时间太长,交互体验不佳。

enhancement

Is it possible to implement other languges?

Traceback (most recent call last): File "/root/miniconda3/envs/vits/lib/python3.10/site-packages/torch/multiprocessing/spawn.py", line 69, in _wrap fn(i, *args) File "/data1/Minxin/TTS/vits_chinese/train.py", line 161, in run train_and_evaluate( File "/data1/Minxin/TTS/vits_chinese/train.py", line 219, in train_and_evaluate (z, z_p, z_r, m_p,...

大佬好,我的一个数据集只有约为1000条样本,1小时20分钟,请问怎么在现有模型上微调?多谢!

大概看了下是通过bert提取char embedding,和音素拼接输入给模型,没有看到停顿是如何处理的。