vits_chinese
vits_chinese copied to clipboard
Best practice TTS based on BERT and VITS with some Natural Speech Features Of Microsoft; Support ONNX streaming out!
训练异常
我使用了baker + 加上自己的语音数据,共250个说话者,存在数据不均衡的情况,部分说话者的语音数量偏少, 发现训练到100个epoch时,损失基本都是在一定范围内震荡了,且合成的语音质量不如单个说话者训练出来的模型,请问该怎么优化呢? 
比如一个汉字的声母被吞,或者韵母尾部听起来有丢失,这种情况是因为什么呢? 对比了它和gt的duration,发现duration是一致的,但就是高低频里对声母的发音或者韵母的发音不好。 请问有人碰到过这种情况吗?
模型大小不一致
请问vits-bert-model.pth等效于G_1000.pth吗 推理正常,想请教为什么模型大小不同,下载的发布的vits-bert-model.pth 156M 自己训练出的G_1000.pth 564M
如何准备自己的数据集
请假,如何准备自己想要的数据集
蒸馏后的学生模型是直接在新数据集上微调,还是需要先在新数据集上微调教师模型,再用新数据集去蒸馏学生模型?
关于知识蒸馏
作者你好,麻烦问一下知识蒸馏用的什么方法呀?有参考论文或者项目吗?
 训练过程中生成的这个图是语谱图吗?梅尔频谱?还是声谱图?横纵坐标是什么呢? 小白一个,谢谢啦
 can not open
关于学生模型
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢? 学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢? 训练学生模型一般多久收敛呀?