GPT-SoVITS
GPT-SoVITS copied to clipboard
关于采样率
数据集训练,推理输出,模型,最终的采样都被会转为32000,不知能否改为44100或48000,在32000时高频只被保留到15KHz左右,音质损失大,明显的“机械”感。默认为32000是因为更高的采样率需更好的电脑配置吗?
这个我也想知道
哈,被大佬们无视了,只能自已研究了
可以的,在推理返回之前,使用soundfile更改采样率
pip install pysoundfile
import soundfile as sf
# 读取原始音频文件
data, samplerate = sf.read('原始音频文件.wav')
# 将音频文件的采样率更改为新的采样率(例如44100)
sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')
可以的,在推理返回之前,使用soundfile更改采样率
pip install pysoundfile
import soundfile as sf # 读取原始音频文件 data, samplerate = sf.read('原始音频文件.wav') # 将音频文件的采样率更改为新的采样率(例如44100) sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')
没少看悦大的视频
收到,原来因为chinese_speech_pretrain 感谢大佬解惑。
276918 @.***
------------------ 原始邮件 ------------------ 发件人: "RVC-Boss/GPT-SoVITS" @.>; 发送时间: 2024年4月8日(星期一) 晚上6:04 @.>; @.@.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911)
数据集训练,推理输出,模型,最终的采样都被会转为32000,不知能否改为44100或48000,在32000时高频只被保留到15KHz左右,音质损失大,明显的“机械”感。默认为32000是因为更高的采样率需更好的电脑配置吗?
因为 cnhubert 是 32k
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
不对,是我搞错了,cnhubert 也是16k的,抱歉。代码里做了重采样才提的特征
input_values = feature_extractor(wav, return_tensors="pt",sampling_rate = 16000).input_values 大佬客气!
276918 @.***
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2024年4月8日(星期一) 晚上6:34 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911)
不对,是我搞错了,cnhubert 也是16k的,抱歉。代码里做了重采样才提的特征
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
input_values = feature_extractor(wav, return_tensors="pt",sampling_rate = 16000).input_values 大佬客气! 276918 @.*** … ------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2024年4月8日(星期一) 晚上6:34 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [RVC-Boss/GPT-SoVITS] 关于采样率 (Issue #911) 不对,是我搞错了,cnhubert 也是16k的,抱歉。代码里做了重采样才提的特征 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
请问这段代码里面提取特征用16k,是否代表最终推理音频的采样率32k没有再提高的必要?没太理解前面各位的结论
我也很好奇,最后推理生成的音频,我把采样率改的天高,真的有用吗?目前采样率都是sr=16000
可以的,在推理返回之前,使用soundfile更改采样率
pip install pysoundfile
import soundfile as sf # 读取原始音频文件 data, samplerate = sf.read('原始音频文件.wav') # 将音频文件的采样率更改为新的采样率(例如44100) sf.write("新音频文件.wav", data, 44100, subtype='PCM_16')
你这改的再高,也没有高频信息,看频谱图能发现明显的截断。