GPT-SoVITS 参考音频的长度

参考音频的长度

Open pyh007 opened this issue 11 months ago • 1 comments

请问下参考音频的长度为3-10s，为啥增加了长度效果会变得很奇怪，这个参考音频的长度为什么控制的这么严格。

Apr 02 '24 06:04 pyh007

我认为是和训练语料和切句结果相关的。底模就是3-10秒训练的，自然对长句效果不好。切完句子，很多都是短句，用长参考音频自然效果更不好。在默认训练数据是最好结果的情况下，我们要做的就是尽量过拟合，去跟训练集类似。以上为猜想

Apr 09 '24 06:04 AnonymousmousCoder