MaxMax2016
MaxMax2016
TTS那点标注是用来微调模型啊,https://github.com/PlayVoice/vits_chinese/issues/57
我也不太理解他那个,但是使用的BERT base+他的线性层;又额外使用了一个线性进行维度转换,嵌入到vits;这维度转换的线性层也能在VITS的训练过程中,学习到和音频对应的韵律表示吧。其实我觉得直接使用BERT base也可以,我也将进行这个实验。
@15755841658 解决了吞音问题,https://github.com/PlayVoice/vits_chinese
很抱歉,那些信息是歌声合成必不可少的。
哦,那个是音色替换,是音频到音频;这个是歌词到音频;
https://github.com/PlayVoice/VI-SVS/releases/tag/0.0.1
whisper不支持streaming
feature perturbation