vits_chinese issues

Bert 加入以后, 底模训练, KL loss爆炸.

2

感谢大大提供这么好的repo, 我这边在用训练一个基底模型, 用版主預先訓練好的prosody.pt 來做character embedding的提取, 然後把提取出來的feature跟chinses_ipa出來的音素做對齊. 這樣算出來的feature, 每一個時間點的norm大約在10左右不知道在加入bert feature以后有没有发现KL爆炸的问题? 我對Bert feature加入很多normalization都沒有辦法解決這個問題. 不知道版主有沒有遇到過? ``` def forward(self, x, x_lengths, bert, bert_legnths): bert_emb = self.tanh(self.bert_proj(self.tanh(bert)).transpose(1, 2)) #bert_emb = bert_emb / (torch.norm(bert_emb, dim=-1).unsqueeze(-1)...

ericwudayi

反向kl loss 微调

3

请问一下，微调时大概训练多久。我在自己训练的模型尝试加入反向kl loss微调，反而kl loss 变大，生成效果很差

yijingshihenxiule

BERT造成发音不准

4

分析是以为BERT在不同语序情况下，同样的字的输出向量差异过大，造成过全连接后和音素嵌入向量相加后的输出变化过大造成的

wizardk

请教支持流式输出吗？

23

请教在推断时，支持实时的流式输出吗？在一些应用中，例如聊天程序，需要支持实时的流式输出，否则等待推断的时间太长，交互体验不佳。

kendo6666

enhancement

想基于预训练模型继续训练，应该怎么做

10

jmaxzh

Other languges implementation?

3

Is it possible to implement other languges?

NK990

RuntimeError: The expanded size of the tensor (50) must match the existing size (0) at non-singleton dimension 1. Target sizes: [192, 50]. Tensor sizes: [192, 0]

5

Traceback (most recent call last): File "/root/miniconda3/envs/vits/lib/python3.10/site-packages/torch/multiprocessing/spawn.py", line 69, in _wrap fn(i, *args) File "/data1/Minxin/TTS/vits_chinese/train.py", line 161, in run train_and_evaluate( File "/data1/Minxin/TTS/vits_chinese/train.py", line 219, in train_and_evaluate (z, z_p, z_r, m_p,...

m1258218761

请问支持多人声的训练吗？然后tts合成时候指定用某一个人声

2

lianjiang-yulj

求问微调/Finetuning？

20

大佬好，我的一个数据集只有约为1000条样本，1小时20分钟，请问怎么在现有模型上微调？多谢！

godspirit00

停顿是如何实现的?

3

大概看了下是通过bert提取char embedding，和音素拼接输入给模型，没有看到停顿是如何处理的。

ben-8878

vits_chinese
vits_chinese copied to clipboard

Metadata

Bert 加入以后, 底模训练, KL loss爆炸.

反向kl loss 微调

BERT造成发音不准

请教支持流式输出吗？

想基于预训练模型继续训练，应该怎么做

Other languges implementation?

RuntimeError: The expanded size of the tensor (50) must match the existing size (0) at non-singleton dimension 1. Target sizes: [192, 50]. Tensor sizes: [192, 0]

请问支持多人声的训练吗？然后tts合成时候指定用某一个人声

求问微调/Finetuning？

停顿是如何实现的?

← Metadata

Owner

Metadata

vits_chinese vits_chinese copied to clipboard

Metadata

← Metadata

Owner

Metadata

vits_chinese
vits_chinese copied to clipboard