GPT-SoVITS 使用10s英文微调模型，合成的音频音质非常差，其他人有出现同样的问题吗？

使用10s英文微调模型，合成的音频音质非常差，其他人有出现同样的问题吗？

Open SUPER-ALEX opened this issue 1 year ago • 3 comments

我在网上下载了10s川普的音频，然后按照Readme步骤微调模型，参数都是默认的，合成的音频音质非常差 reference音频： https://drive.google.com/file/d/1LmNOIXC_wzRxi8k8YP4yIyn7XeneAOtR/view?usp=sharing 合成音频： https://drive.google.com/file/d/14_pJxmCuvXuXla2opkYahJrJ0syXkEvo/view?usp=sharing 求大佬解答这个问题

Feb 21 '24 09:02 SUPER-ALEX

克隆是要复刻输入源的，你给了一段音质差的音频作为输入源，模型需要忠实地还原差音质，否则就是有问题了。比如你输入一个差音质的川普，模型给你跑出来一个高音质的川普，这说明训练集见过川普，模型作弊了，而非模型对音色有了理解。

建议前处理（先增强ref音频再过模型）或者后处理（先过模型再增强音频）做音质增强，推荐一个免费的web工具 podcast.adobe.com/enhance

Feb 21 '24 10:02 RVC-Boss

感谢大佬的解答，我这边用音质增强后的音频合成出来的结果好很多了增强后的reference音频： https://drive.google.com/file/d/1Is3Nxi_WOM2PcUgY3QREE0L-s3LAc0tI/view?usp=sharing 合成音频： https://drive.google.com/file/d/1oS_k0qxNMHM_lXGi1kCf9cB6HKRKxGPQ/view?usp=sharing

另外，还想请教一下，如何我要合成法语的音频，需要怎么做呢？

Feb 23 '24 03:02 SUPER-ALEX

请问有没有音质增强的模型，大佬推荐一波

Feb 23 '24 09:02 carelessswhisper

克隆是要复刻输入源的，你给了一段音质差的音频作为输入源，模型需要忠实地还原差音质，否则就是有问题了。比如你输入一个差音质的川普，模型给你跑出来一个高音质的川普，这说明训练集见过川普，模型作弊了，而非模型对音色有了理解。

建议前处理（先增强ref音频再过模型）或者后处理（先过模型再增强音频）做音质增强，推荐一个免费的web工具 podcast.adobe.com/enhance

请教一下音质增强有没有推荐的方法

Mar 01 '24 08:03 AWangji

GPT-SoVITS GPT-SoVITS copied to clipboard

使用10s英文微调模型，合成的音频音质非常差，其他人有出现同样的问题吗？

GPT-SoVITS
GPT-SoVITS copied to clipboard