GPT-SoVITS
GPT-SoVITS copied to clipboard
使用10s英文微调模型,合成的音频音质非常差,其他人有出现同样的问题吗?
我在网上下载了10s川普的音频,然后按照Readme步骤微调模型,参数都是默认的,合成的音频音质非常差 reference音频: https://drive.google.com/file/d/1LmNOIXC_wzRxi8k8YP4yIyn7XeneAOtR/view?usp=sharing 合成音频: https://drive.google.com/file/d/14_pJxmCuvXuXla2opkYahJrJ0syXkEvo/view?usp=sharing 求大佬解答这个问题
克隆是要复刻输入源的,你给了一段音质差的音频作为输入源,模型需要忠实地还原差音质,否则就是有问题了。比如你输入一个差音质的川普,模型给你跑出来一个高音质的川普,这说明训练集见过川普,模型作弊了,而非模型对音色有了理解。
建议前处理(先增强ref音频再过模型)或者后处理(先过模型再增强音频)做音质增强,推荐一个免费的web工具 podcast.adobe.com/enhance
感谢大佬的解答,我这边用音质增强后的音频合成出来的结果好很多了 增强后的reference音频: https://drive.google.com/file/d/1Is3Nxi_WOM2PcUgY3QREE0L-s3LAc0tI/view?usp=sharing 合成音频: https://drive.google.com/file/d/1oS_k0qxNMHM_lXGi1kCf9cB6HKRKxGPQ/view?usp=sharing
另外,还想请教一下,如何我要合成法语的音频,需要怎么做呢?
请问有没有音质增强的模型,大佬推荐一波
克隆是要复刻输入源的,你给了一段音质差的音频作为输入源,模型需要忠实地还原差音质,否则就是有问题了。比如你输入一个差音质的川普,模型给你跑出来一个高音质的川普,这说明训练集见过川普,模型作弊了,而非模型对音色有了理解。
建议前处理(先增强ref音频再过模型)或者后处理(先过模型再增强音频)做音质增强,推荐一个免费的web工具 podcast.adobe.com/enhance
请教一下音质增强有没有推荐的方法