GPT-SoVITS
GPT-SoVITS copied to clipboard
参考音频的长度
请问下参考音频的长度为3-10s,为啥增加了长度效果会变得很奇怪,这个参考音频的长度为什么控制的这么严格。
我认为是和训练语料和切句结果相关的。底模就是3-10秒训练的,自然对长句效果不好。切完句子,很多都是短句,用长参考音频自然效果更不好。在默认训练数据是最好结果的情况下,我们要做的就是尽量过拟合,去跟训练集类似。 以上为猜想