GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

参考音频时长可以是1分钟么?10秒太短了

Open masanbing161 opened this issue 11 months ago • 1 comments

参考音频时长可以是1分钟么?10秒太短了 微信图片_20240229151845

masanbing161 avatar Feb 29 '24 07:02 masanbing161

我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟,且生成的文字比较短,那么生成的音频会很拖沓。如果生成的文字很长,那么会有显存以及hallucination方面的问题,按照作者的建议是以50字为单位切分开

wehos avatar Feb 29 '24 18:02 wehos

我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟,且生成的文字比较短,那么生成的音频会很拖沓。如果生成的文字很长,那么会有显存以及hallucination方面的问题,按照作者的建议是以50字为单位切分开

那我理解单次推理最长可以用50个字的音频咯?

AWangji avatar Mar 01 '24 07:03 AWangji

同问

AWangji avatar Mar 01 '24 08:03 AWangji

参考音频不可以太长,训练集没见过那么长的。GPT推的时候是带参考音频一起推的。

RVC-Boss avatar Mar 01 '24 15:03 RVC-Boss

为什么会需要很长的参考音频?我感觉短的也挺像的呀

TinaChen95 avatar Mar 04 '24 02:03 TinaChen95

为什么会需要很长的参考音频?我感觉短的也挺像的呀

主要是用自己录的语音推理结果很不好。或者说你们对于自己录音的音频如何处理的呢?是先做了过滤或者音质增强然后再推理?

AWangji avatar Mar 04 '24 02:03 AWangji

你的描述有点模糊,效果不好的因素可能很多,你是为什么会怀疑是长度的问题呢? 我们假设是长度的问题,那么应该使用仓库里面提供的自动切割工具,先把长音频切短之后再训练推理呀 我们假设是音质的问题,那就用用工具先处理一下音质 https://github.com/RVC-Boss/GPT-SoVITS/issues/568#issuecomment-1956319044

TinaChen95 avatar Mar 04 '24 07:03 TinaChen95

你的描述有点模糊,效果不好的因素可能很多,你是为什么会怀疑是长度的问题呢? 我们假设是长度的问题,那么应该使用仓库里面提供的自动切割工具,先把长音频切短之后再训练推理呀 我们假设是音质的问题,那就用用工具先处理一下音质 #568 (comment)

好的非常感谢,我试一下。但是我最终是希望部署到Linux上,所以是否有本地部署的音质增强的模型推荐呢?

AWangji avatar Mar 04 '24 08:03 AWangji

https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary

TinaChen95 avatar Mar 06 '24 05:03 TinaChen95

https://github.com/xiph/rnnoise

TinaChen95 avatar Mar 06 '24 05:03 TinaChen95

https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary

非常感谢。其实这个项目里也有语音降噪的模型,但我用我录制的声音再通过语音降噪以后,进行语音克隆,虽然效果有一点提升但是依然不太好,大家通常对录音的音频还需要如何处理呢?

AWangji avatar Mar 12 '24 03:03 AWangji