GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

如何提高文本转语音的准确性?

Open Laixinsz opened this issue 1 year ago • 3 comments

如何提高文本转语音的准确性?用默认模型感觉语音相似度还行,就是文本转语音的时候,经常会出现各种问题,比如文本缺失,文本重复,拼接了提示语音的文本等。试过各种分割方法,调整top_k top_p temperature的值还是会有问题。

Laixinsz avatar Feb 22 '24 13:02 Laixinsz

+1

LvHuaiSheng avatar Feb 26 '24 01:02 LvHuaiSheng

GPT换底模可以牺牲相似度换取准确性

jax-explorer avatar Feb 28 '24 13:02 jax-explorer

仔细看了一下,预处理部分没有bug,norm_text也是对的。有问题的部分应该是AR(GPT,t2s_model)中输出的pred_semantic。这个地方是唯一通过自回归计算,生成可变长度的地方。输入是phone,输出是semantic frames。如果要修复这个问题,感觉是在finetuning阶段引入的。

Erickrus avatar Mar 18 '24 13:03 Erickrus