GPT-SoVITS
GPT-SoVITS copied to clipboard

Published 20 hours ago •

Reame
Issues

如何调整合成音频的音量？

Open AnonymousmousCoder opened this issue 10 months ago • 7 comments

可能是训练音频声音就比较小的缘故，有的模型推理出来的声音很小。如何在不写临时文件的情况下，直接修改audio_fragment的音量呢？

TTS.py

for i, batch in enumerate(audio):
            for j, audio_fragment in enumerate(batch):
                max_audio=torch.abs(audio_fragment).max()#简单防止16bit爆音
                if max_audio>1: audio_fragment/=max_audio
                audio_fragment:torch.Tensor = torch.cat([audio_fragment, zero_wav], dim=0)
                audio[i][j] = audio_fragment.cpu().numpy()

Apr 15 '24 04:04 AnonymousmousCoder

建议训练前先去响度匹配，这样推理出来的音频响度就会正常

Apr 15 '24 08:04 XXXXRT666

要是想的话你可以接一个响度匹配，使用librosa

Apr 15 '24 08:04 XXXXRT666

建议训练前先去响度匹配，这样推理出来的音频响度就会正常

训练时有这个功能吗？

Apr 15 '24 09:04 AnonymousmousCoder

无，Pr里面有一个

Apr 15 '24 09:04 XXXXRT666

mark

Apr 16 '24 06:04 ZhangJianBeiJing

Pr

您好，请问能给一下详细链接吗，没在pr中搜索到，或者有其他的方法吗？

May 14 '24 01:05 Wei-JL

Pr

您好，请问能给一下详细链接吗，没在pr中搜索到，或者有其他的方法吗？

#937

May 14 '24 01:05 XXXXRT666

自己用ffmpeg写一个就好了呀, filter volume 就可以了

Jul 02 '24 02:07 panjie-payne

mark

Dec 29 '24 14:12 miaohf