MaxMax2016
MaxMax2016
没有资源去做多说话人训练,非常抱歉。
采样率不匹配
https://github.com/PlayVoice/so-vits-svc-5.0/blob/main/prepare/preprocess_a.py python preprocess_a.py -w ./data_raw -o ./data_svc/waves-16k -s 16000
是标贝数据集吗?这个错误是儿化音标注导致了,不会处理,不会影响训练,只是模型不支持儿化音。~
这里的segment_size设置需要变大吗?不需要 segment_size 在实际训练是在decoder 部分,只选取一段进行训练吗?是的 需要前提先做一下截取到一个时长范围吗?不需要,biaobei数据也有10S+的
是的,因为每次随机截取,理论上所有的音频都会被用于训练decoder
对代码是一直训练,需要人去听结果,tensorboard --logdir logs/,满意了就可以不训练了
可以尝试减小hop_length,并修改 "hop_length": 256, "upsample_rates": [8,8,2,2], "upsample_kernel_sizes": [16,16,4,4],
and maybe: https://github.com/heatz123/naturalspeech/blob/main/models/models.py#L610~L616
或者直接把预训练模型的时长预测模块赋值给微调的模型,也可以在微调的时候不训练时长预测