GPT-SoVITS 参考音频时长可以是1分钟么？10秒太短了

参考音频时长可以是1分钟么？10秒太短了微信图片_20240229151845

Feb 29 '24 07:02 masanbing161

我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟，且生成的文字比较短，那么生成的音频会很拖沓。如果生成的文字很长，那么会有显存以及hallucination方面的问题，按照作者的建议是以50字为单位切分开

Feb 29 '24 18:02 wehos

我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟，且生成的文字比较短，那么生成的音频会很拖沓。如果生成的文字很长，那么会有显存以及hallucination方面的问题，按照作者的建议是以50字为单位切分开

那我理解单次推理最长可以用50个字的音频咯？

Mar 01 '24 07:03 AWangji

同问

Mar 01 '24 08:03 AWangji

参考音频不可以太长，训练集没见过那么长的。GPT推的时候是带参考音频一起推的。

Mar 01 '24 15:03 RVC-Boss

为什么会需要很长的参考音频？我感觉短的也挺像的呀

Mar 04 '24 02:03 TinaChen95

为什么会需要很长的参考音频？我感觉短的也挺像的呀

主要是用自己录的语音推理结果很不好。或者说你们对于自己录音的音频如何处理的呢？是先做了过滤或者音质增强然后再推理？

Mar 04 '24 02:03 AWangji

你的描述有点模糊，效果不好的因素可能很多，你是为什么会怀疑是长度的问题呢？我们假设是长度的问题，那么应该使用仓库里面提供的自动切割工具，先把长音频切短之后再训练推理呀我们假设是音质的问题，那就用用工具先处理一下音质 https://github.com/RVC-Boss/GPT-SoVITS/issues/568#issuecomment-1956319044

Mar 04 '24 07:03 TinaChen95

你的描述有点模糊，效果不好的因素可能很多，你是为什么会怀疑是长度的问题呢？我们假设是长度的问题，那么应该使用仓库里面提供的自动切割工具，先把长音频切短之后再训练推理呀我们假设是音质的问题，那就用用工具先处理一下音质 #568 (comment)

好的非常感谢，我试一下。但是我最终是希望部署到Linux上，所以是否有本地部署的音质增强的模型推荐呢？

Mar 04 '24 08:03 AWangji

https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary

Mar 06 '24 05:03 TinaChen95

https://github.com/xiph/rnnoise

Mar 06 '24 05:03 TinaChen95

https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary

非常感谢。其实这个项目里也有语音降噪的模型，但我用我录制的声音再通过语音降噪以后，进行语音克隆，虽然效果有一点提升但是依然不太好，大家通常对录音的音频还需要如何处理呢？

Mar 12 '24 03:03 AWangji

GPT-SoVITS GPT-SoVITS copied to clipboard

参考音频时长可以是1分钟么？10秒太短了

GPT-SoVITS
GPT-SoVITS copied to clipboard