GPT-SoVITS 需要32k的语音进行微调吗？

我注意到微调代码中语音采取的32k的代码进行load，为何有保存了32k的语音，保存的语音是用来做什么的？我想用16k的语音进行微调，不知道效果会不会有影响？

Jan 29 '24 09:01 brooks348

另外，麻烦问您一下，在进行微调时，是否是使用的数据越多，轮数越多效果最好？因为我注意到您说轮数不益太多

Jan 29 '24 09:01 brooks348

再次麻烦问您一下，这个gpt训练的图是否表明训练成功，为什么没有出现gpt的权重文件

Jan 29 '24 09:01 brooks348

Inkedcab1022a9717f9b6b3c442965a36729_LI_Moment

Jan 29 '24 09:01 brooks348

语音采样率不要紧，内部会自动适配不是越多越好，小样本默认即可 GPU占用率归零了说明训完了你的样本条数是几条？

Jan 29 '24 10:01 RVC-Boss

好的，我改成16k的load，不重采样了。epoch不是越多越好，是不是样本数越多就越好？我的样本为11条。logs和weitht里面都没有生成pth

Jan 29 '24 10:01 brooks348

GPT不更新权重的问题已经修复了呀，你更新下代码？

Jan 29 '24 13:01 RVC-Boss

改一下切分脚本的这段 for inp_path in input[int(i_part)::int(all_part)]: # print(inp_path) try: name = os.path.basename(inp_path) audio = load_audio(inp_path, 32000) # print(audio.shape) for chunk, start, end in slicer.slice(audio): # start和end是帧数 tmp_max = np.abs(chunk).max() if(tmp_max>1):chunk/=tmp_max chunk = (chunk / tmp_max * (max * alpha)) + (1 - alpha) * chunk wavfile.write( "%s/%s%s_%s.wav" % (opt_root, name, start, end), 32000, # chunk.astype(np.float32), (chunk * 32767).astype(np.int16), ) 改成你要的采样率和位数

Jan 29 '24 15:01 hyhuc0079

语音采样率不要紧，内部会自动适配不是越多越好，小样本默认即可 GPU占用率归零了说明训完了你的样本条数是几条？

如果我训练集相对较大需不需要设置大一点的epoch呀，能不能加个高级参数可以大于25轮？

Jan 29 '24 16:01 hyhuc0079

GPT不更新权重的问题已经修复了呀，你更新下代码？收到，问题已经解决

Jan 30 '24 01:01 brooks348