GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

如何调整合成音频的音量?

Open AnonymousmousCoder opened this issue 10 months ago • 7 comments

可能是训练音频声音就比较小的缘故,有的模型推理出来的声音很小。如何在不写临时文件的情况下,直接修改audio_fragment的音量呢?

TTS.py

for i, batch in enumerate(audio):
            for j, audio_fragment in enumerate(batch):
                max_audio=torch.abs(audio_fragment).max()#简单防止16bit爆音
                if max_audio>1: audio_fragment/=max_audio
                audio_fragment:torch.Tensor = torch.cat([audio_fragment, zero_wav], dim=0)
                audio[i][j] = audio_fragment.cpu().numpy()

AnonymousmousCoder avatar Apr 15 '24 04:04 AnonymousmousCoder

建议训练前先去响度匹配,这样推理出来的音频响度就会正常

XXXXRT666 avatar Apr 15 '24 08:04 XXXXRT666

要是想的话你可以接一个响度匹配,使用librosa

XXXXRT666 avatar Apr 15 '24 08:04 XXXXRT666

建议训练前先去响度匹配,这样推理出来的音频响度就会正常

训练时有这个功能吗?

AnonymousmousCoder avatar Apr 15 '24 09:04 AnonymousmousCoder

无,Pr里面有一个

XXXXRT666 avatar Apr 15 '24 09:04 XXXXRT666

mark

ZhangJianBeiJing avatar Apr 16 '24 06:04 ZhangJianBeiJing

Pr

您好,请问能给一下详细链接吗, 没在pr中搜索到,或者有其他的方法吗?

Wei-JL avatar May 14 '24 01:05 Wei-JL

Pr

您好,请问能给一下详细链接吗, 没在pr中搜索到,或者有其他的方法吗?

#937

XXXXRT666 avatar May 14 '24 01:05 XXXXRT666

自己用ffmpeg写一个就好了呀, filter volume 就可以了

panjie-payne avatar Jul 02 '24 02:07 panjie-payne

mark

miaohf avatar Dec 29 '24 14:12 miaohf