GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

关于采样率

Open qsq3 opened this issue 11 months ago • 20 comments

数据集训练,推理输出,模型,最终的采样都被会转为32000,不知能否改为44100或48000,在32000时高频只被保留到15KHz左右,音质损失大,明显的“机械”感。默认为32000是因为更高的采样率需更好的电脑配置吗?

qsq3 avatar Apr 02 '24 09:04 qsq3

这个我也想知道

TheDragonK avatar Apr 02 '24 14:04 TheDragonK

哈,被大佬们无视了,只能自已研究了

qsq3 avatar Apr 04 '24 07:04 qsq3

可以的,在推理返回之前,使用soundfile更改采样率

pip install pysoundfile

import soundfile as sf

# 读取原始音频文件
data, samplerate = sf.read('原始音频文件.wav')

# 将音频文件的采样率更改为新的采样率(例如44100)
sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')

v3ucn avatar Apr 05 '24 15:04 v3ucn

可以的,在推理返回之前,使用soundfile更改采样率

pip install pysoundfile

import soundfile as sf

# 读取原始音频文件
data, samplerate = sf.read('原始音频文件.wav')

# 将音频文件的采样率更改为新的采样率(例如44100)
sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')

没少看悦大的视频

qsq3 avatar Apr 06 '24 12:04 qsq3

收到,原来因为chinese_speech_pretrain 感谢大佬解惑。

276918 @.***

 

------------------ 原始邮件 ------------------ 发件人: "RVC-Boss/GPT-SoVITS" @.>; 发送时间: 2024年4月8日(星期一) 晚上6:04 @.>; @.@.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911)

数据集训练,推理输出,模型,最终的采样都被会转为32000,不知能否改为44100或48000,在32000时高频只被保留到15KHz左右,音质损失大,明显的“机械”感。默认为32000是因为更高的采样率需更好的电脑配置吗?

因为 cnhubert 是 32k

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

qsq3 avatar Apr 08 '24 10:04 qsq3

不对,是我搞错了,cnhubert 也是16k的,抱歉。代码里做了重采样才提的特征

pengzhendong avatar Apr 08 '24 10:04 pengzhendong

input_values = feature_extractor(wav, return_tensors="pt",sampling_rate = 16000).input_values 大佬客气! 

276918 @.***

 

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2024年4月8日(星期一) 晚上6:34 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911)

不对,是我搞错了,cnhubert 也是16k的,抱歉。代码里做了重采样才提的特征

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

qsq3 avatar Apr 08 '24 10:04 qsq3

input_values = feature_extractor(wav, return_tensors="pt",sampling_rate = 16000).input_values 大佬客气!  276918 @.***   ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2024年4月8日(星期一) 晚上6:34 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911) 不对,是我搞错了,cnhubert 也是16k的,抱歉。代码里做了重采样才提的特征 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

请问这段代码里面提取特征用16k,是否代表最终推理音频的采样率32k没有再提高的必要?没太理解前面各位的结论

xiding11 avatar Apr 09 '24 04:04 xiding11

我也很好奇,最后推理生成的音频,我把采样率改的天高,真的有用吗?目前采样率都是sr=16000

AnonymousmousCoder avatar Apr 09 '24 06:04 AnonymousmousCoder

可以的,在推理返回之前,使用soundfile更改采样率

pip install pysoundfile

import soundfile as sf

# 读取原始音频文件
data, samplerate = sf.read('原始音频文件.wav')

# 将音频文件的采样率更改为新的采样率(例如44100)
sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')

你这改的再高,也没有高频信息,看频谱图能发现明显的截断。

pengzhendong avatar Apr 09 '24 10:04 pengzhendong