vits_chinese icon indicating copy to clipboard operation
vits_chinese copied to clipboard

Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!

Results 65 vits_chinese issues
Sort by recently updated
recently updated
newest added

我使用了baker + 加上自己的语音数据,共250个说话者,存在数据不均衡的情况,部分说话者的语音数量偏少, 发现训练到100个epoch时,损失基本都是在一定范围内震荡了,且合成的语音质量不如单个说话者训练出来的模型,请问该怎么优化呢? ![image](https://github.com/PlayVoice/vits_chinese/assets/86715812/33aca5d2-24de-4c82-a648-799f3cdbcd84)

比如一个汉字的声母被吞,或者韵母尾部听起来有丢失,这种情况是因为什么呢? 对比了它和gt的duration,发现duration是一致的,但就是高低频里对声母的发音或者韵母的发音不好。 请问有人碰到过这种情况吗?

请问vits-bert-model.pth等效于G_1000.pth吗 推理正常,想请教为什么模型大小不同,下载的发布的vits-bert-model.pth 156M 自己训练出的G_1000.pth 564M

请假,如何准备自己想要的数据集

感谢大佬开源这么棒的项目,请问关于模型压缩这块,模型蒸馏具体是什么做的呢,能简单告知一下吗

help wanted

蒸馏后的学生模型是直接在新数据集上微调,还是需要先在新数据集上微调教师模型,再用新数据集去蒸馏学生模型?

作者你好,麻烦问一下知识蒸馏用的什么方法呀?有参考论文或者项目吗?

![标准](https://github.com/PlayVoice/vits_chinese/assets/88692769/33fabcb8-48f3-4ff8-9b10-e27a94c546e4) 训练过程中生成的这个图是语谱图吗?梅尔频谱?还是声谱图?横纵坐标是什么呢? 小白一个,谢谢啦

![image](https://github.com/PlayVoice/vits_chinese/assets/18719360/30c2580b-387b-43c9-a63b-64d37b170bbe) can not open

请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢? 学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢? 训练学生模型一般多久收敛呀?