GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

使用10s英文微调模型,合成的音频音质非常差,其他人有出现同样的问题吗?

Open SUPER-ALEX opened this issue 1 year ago • 3 comments

我在网上下载了10s川普的音频,然后按照Readme步骤微调模型,参数都是默认的,合成的音频音质非常差 reference音频: https://drive.google.com/file/d/1LmNOIXC_wzRxi8k8YP4yIyn7XeneAOtR/view?usp=sharing 合成音频: https://drive.google.com/file/d/14_pJxmCuvXuXla2opkYahJrJ0syXkEvo/view?usp=sharing 求大佬解答这个问题

SUPER-ALEX avatar Feb 21 '24 09:02 SUPER-ALEX

克隆是要复刻输入源的,你给了一段音质差的音频作为输入源,模型需要忠实地还原差音质,否则就是有问题了。比如你输入一个差音质的川普,模型给你跑出来一个高音质的川普,这说明训练集见过川普,模型作弊了,而非模型对音色有了理解。

建议前处理(先增强ref音频再过模型)或者后处理(先过模型再增强音频)做音质增强,推荐一个免费的web工具 podcast.adobe.com/enhance

RVC-Boss avatar Feb 21 '24 10:02 RVC-Boss

感谢大佬的解答,我这边用音质增强后的音频合成出来的结果好很多了 增强后的reference音频: https://drive.google.com/file/d/1Is3Nxi_WOM2PcUgY3QREE0L-s3LAc0tI/view?usp=sharing 合成音频: https://drive.google.com/file/d/1oS_k0qxNMHM_lXGi1kCf9cB6HKRKxGPQ/view?usp=sharing

另外,还想请教一下,如何我要合成法语的音频,需要怎么做呢?

SUPER-ALEX avatar Feb 23 '24 03:02 SUPER-ALEX

请问有没有音质增强的模型,大佬推荐一波

carelessswhisper avatar Feb 23 '24 09:02 carelessswhisper

克隆是要复刻输入源的,你给了一段音质差的音频作为输入源,模型需要忠实地还原差音质,否则就是有问题了。比如你输入一个差音质的川普,模型给你跑出来一个高音质的川普,这说明训练集见过川普,模型作弊了,而非模型对音色有了理解。

建议前处理(先增强ref音频再过模型)或者后处理(先过模型再增强音频)做音质增强,推荐一个免费的web工具 podcast.adobe.com/enhance

请教一下音质增强有没有推荐的方法

AWangji avatar Mar 01 '24 08:03 AWangji