GPT-SoVITS
GPT-SoVITS copied to clipboard
参考音频时长可以是1分钟么?10秒太短了
参考音频时长可以是1分钟么?10秒太短了
我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟,且生成的文字比较短,那么生成的音频会很拖沓。如果生成的文字很长,那么会有显存以及hallucination方面的问题,按照作者的建议是以50字为单位切分开
我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟,且生成的文字比较短,那么生成的音频会很拖沓。如果生成的文字很长,那么会有显存以及hallucination方面的问题,按照作者的建议是以50字为单位切分开
那我理解单次推理最长可以用50个字的音频咯?
同问
参考音频不可以太长,训练集没见过那么长的。GPT推的时候是带参考音频一起推的。
为什么会需要很长的参考音频?我感觉短的也挺像的呀
为什么会需要很长的参考音频?我感觉短的也挺像的呀
主要是用自己录的语音推理结果很不好。或者说你们对于自己录音的音频如何处理的呢?是先做了过滤或者音质增强然后再推理?
你的描述有点模糊,效果不好的因素可能很多,你是为什么会怀疑是长度的问题呢? 我们假设是长度的问题,那么应该使用仓库里面提供的自动切割工具,先把长音频切短之后再训练推理呀 我们假设是音质的问题,那就用用工具先处理一下音质 https://github.com/RVC-Boss/GPT-SoVITS/issues/568#issuecomment-1956319044
你的描述有点模糊,效果不好的因素可能很多,你是为什么会怀疑是长度的问题呢? 我们假设是长度的问题,那么应该使用仓库里面提供的自动切割工具,先把长音频切短之后再训练推理呀 我们假设是音质的问题,那就用用工具先处理一下音质 #568 (comment)
好的非常感谢,我试一下。但是我最终是希望部署到Linux上,所以是否有本地部署的音质增强的模型推荐呢?
https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary
https://github.com/xiph/rnnoise
https://modelscope.cn/models/iic/speech_frcrn_ans_cirm_16k/summary
非常感谢。其实这个项目里也有语音降噪的模型,但我用我录制的声音再通过语音降噪以后,进行语音克隆,虽然效果有一点提升但是依然不太好,大家通常对录音的音频还需要如何处理呢?