vits_chinese
vits_chinese copied to clipboard
Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!
感谢大大提供这么好的repo, 我这边在用训练一个基底模型, 用版主預先訓練好的prosody.pt 來做character embedding的提取, 然後把提取出來的feature跟chinses_ipa出來的音素做對齊. 這樣算出來的feature, 每一個時間點的norm大約在10左右 不知道在加入bert feature以后有没有发现KL爆炸的问题? 我對Bert feature加入很多normalization都沒有辦法解決這個問題. 不知道版主有沒有遇到過? ``` def forward(self, x, x_lengths, bert, bert_legnths): bert_emb = self.tanh(self.bert_proj(self.tanh(bert)).transpose(1, 2)) #bert_emb = bert_emb / (torch.norm(bert_emb, dim=-1).unsqueeze(-1)...
请问一下,微调时大概训练多久。我在自己训练的模型尝试加入反向kl loss微调,反而kl loss 变大,生成效果很差
分析是以为BERT在不同语序情况下,同样的字的输出向量差异过大,造成过全连接后和音素嵌入向量相加后的输出变化过大造成的
Is it possible to implement other languges?
Traceback (most recent call last): File "/root/miniconda3/envs/vits/lib/python3.10/site-packages/torch/multiprocessing/spawn.py", line 69, in _wrap fn(i, *args) File "/data1/Minxin/TTS/vits_chinese/train.py", line 161, in run train_and_evaluate( File "/data1/Minxin/TTS/vits_chinese/train.py", line 219, in train_and_evaluate (z, z_p, z_r, m_p,...
大佬好,我的一个数据集只有约为1000条样本,1小时20分钟,请问怎么在现有模型上微调?多谢!
大概看了下是通过bert提取char embedding,和音素拼接输入给模型,没有看到停顿是如何处理的。