GPT-SoVITS
GPT-SoVITS copied to clipboard
如何提高文本转语音的准确性?
如何提高文本转语音的准确性?用默认模型感觉语音相似度还行,就是文本转语音的时候,经常会出现各种问题,比如文本缺失,文本重复,拼接了提示语音的文本等。试过各种分割方法,调整top_k top_p temperature的值还是会有问题。
+1
GPT换底模可以牺牲相似度换取准确性
仔细看了一下,预处理部分没有bug,norm_text也是对的。有问题的部分应该是AR(GPT,t2s_model)中输出的pred_semantic。这个地方是唯一通过自回归计算,生成可变长度的地方。输入是phone,输出是semantic frames。如果要修复这个问题,感觉是在finetuning阶段引入的。