GPT-SoVITS 关于采样率

数据集训练，推理输出，模型，最终的采样都被会转为32000，不知能否改为44100或48000，在32000时高频只被保留到15KHz左右，音质损失大，明显的“机械”感。默认为32000是因为更高的采样率需更好的电脑配置吗？

Apr 02 '24 09:04 qsq3

这个我也想知道

Apr 02 '24 14:04 TheDragonK

哈，被大佬们无视了，只能自已研究了

Apr 04 '24 07:04 qsq3

可以的，在推理返回之前，使用soundfile更改采样率

pip install pysoundfile

import soundfile as sf

# 读取原始音频文件
data, samplerate = sf.read('原始音频文件.wav')

# 将音频文件的采样率更改为新的采样率（例如44100）
sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')

Apr 05 '24 15:04 v3ucn

可以的，在推理返回之前，使用soundfile更改采样率

pip install pysoundfile

import soundfile as sf

# 读取原始音频文件
data, samplerate = sf.read('原始音频文件.wav')

# 将音频文件的采样率更改为新的采样率（例如44100）
sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')

没少看悦大的视频

Apr 06 '24 12:04 qsq3

收到，原来因为chinese_speech_pretrain 感谢大佬解惑。

276918 @.***

------------------ 原始邮件 ------------------ 发件人: "RVC-Boss/GPT-SoVITS" @.>; 发送时间: 2024年4月8日(星期一) 晚上6:04 @.>; @.@.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911)

数据集训练，推理输出，模型，最终的采样都被会转为32000，不知能否改为44100或48000，在32000时高频只被保留到15KHz左右，音质损失大，明显的“机械”感。默认为32000是因为更高的采样率需更好的电脑配置吗？

因为 cnhubert 是 32k

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Apr 08 '24 10:04 qsq3

不对，是我搞错了，cnhubert 也是16k的，抱歉。代码里做了重采样才提的特征

Apr 08 '24 10:04 pengzhendong

input_values = feature_extractor(wav, return_tensors="pt",sampling_rate = 16000).input_values 大佬客气！

276918 @.***

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2024年4月8日(星期一) 晚上6:34 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911)

不对，是我搞错了，cnhubert 也是16k的，抱歉。代码里做了重采样才提的特征

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Apr 08 '24 10:04 qsq3

input_values = feature_extractor(wav, return_tensors="pt",sampling_rate = 16000).input_values 大佬客气！ 276918 @.*** … ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2024年4月8日(星期一) 晚上6:34 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911) 不对，是我搞错了，cnhubert 也是16k的，抱歉。代码里做了重采样才提的特征 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

请问这段代码里面提取特征用16k，是否代表最终推理音频的采样率32k没有再提高的必要？没太理解前面各位的结论

Apr 09 '24 04:04 xiding11

我也很好奇，最后推理生成的音频，我把采样率改的天高，真的有用吗？目前采样率都是sr=16000

Apr 09 '24 06:04 AnonymousmousCoder

可以的，在推理返回之前，使用soundfile更改采样率

pip install pysoundfile

import soundfile as sf

# 读取原始音频文件
data, samplerate = sf.read('原始音频文件.wav')

# 将音频文件的采样率更改为新的采样率（例如44100）
sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')

你这改的再高，也没有高频信息，看频谱图能发现明显的截断。

Apr 09 '24 10:04 pengzhendong

GPT-SoVITS GPT-SoVITS copied to clipboard

关于采样率

GPT-SoVITS
GPT-SoVITS copied to clipboard