GPT-SoVITS 如何提高文本转语音的准确性?

如何提高文本转语音的准确性?

Open Laixinsz opened this issue 1 year ago • 3 comments

如何提高文本转语音的准确性?用默认模型感觉语音相似度还行，就是文本转语音的时候，经常会出现各种问题，比如文本缺失，文本重复，拼接了提示语音的文本等。试过各种分割方法，调整top_k top_p temperature的值还是会有问题。

Feb 22 '24 13:02 Laixinsz

Feb 26 '24 01:02 LvHuaiSheng

GPT换底模可以牺牲相似度换取准确性

Feb 28 '24 13:02 jax-explorer

仔细看了一下，预处理部分没有bug，norm_text也是对的。有问题的部分应该是AR(GPT，t2s_model)中输出的pred_semantic。这个地方是唯一通过自回归计算，生成可变长度的地方。输入是phone，输出是semantic frames。如果要修复这个问题，感觉是在finetuning阶段引入的。

Mar 18 '24 13:03 Erickrus

GPT-SoVITS GPT-SoVITS copied to clipboard

如何提高文本转语音的准确性?

GPT-SoVITS
GPT-SoVITS copied to clipboard