GPT-SoVITS
GPT-SoVITS copied to clipboard
如何调整合成音频的音量?
可能是训练音频声音就比较小的缘故,有的模型推理出来的声音很小。如何在不写临时文件的情况下,直接修改audio_fragment的音量呢?
TTS.py
for i, batch in enumerate(audio):
for j, audio_fragment in enumerate(batch):
max_audio=torch.abs(audio_fragment).max()#简单防止16bit爆音
if max_audio>1: audio_fragment/=max_audio
audio_fragment:torch.Tensor = torch.cat([audio_fragment, zero_wav], dim=0)
audio[i][j] = audio_fragment.cpu().numpy()
建议训练前先去响度匹配,这样推理出来的音频响度就会正常
要是想的话你可以接一个响度匹配,使用librosa
建议训练前先去响度匹配,这样推理出来的音频响度就会正常
训练时有这个功能吗?
无,Pr里面有一个
mark
Pr
您好,请问能给一下详细链接吗, 没在pr中搜索到,或者有其他的方法吗?
Pr
您好,请问能给一下详细链接吗, 没在pr中搜索到,或者有其他的方法吗?
#937
自己用ffmpeg写一个就好了呀, filter volume 就可以了
mark