MaxMax2016 comments

Results 243 comments of


                                            MaxMax2016

没有资源去做多说话人训练，非常抱歉。

采样率不匹配

https://github.com/PlayVoice/so-vits-svc-5.0/blob/main/prepare/preprocess_a.py python preprocess_a.py -w ./data_raw -o ./data_svc/waves-16k -s 16000

是标贝数据集吗？这个错误是儿化音标注导致了，不会处理，不会影响训练，只是模型不支持儿化音。~

这里的segment_size设置需要变大吗？不需要 segment_size 在实际训练是在decoder 部分，只选取一段进行训练吗？是的需要前提先做一下截取到一个时长范围吗？不需要，biaobei数据也有10S+的

是的，因为每次随机截取，理论上所有的音频都会被用于训练decoder

对代码是一直训练，需要人去听结果，tensorboard --logdir logs/，满意了就可以不训练了

可以尝试减小hop_length，并修改 "hop_length": 256, "upsample_rates": [8,8,2,2], "upsample_kernel_sizes": [16,16,4,4],

and maybe: https://github.com/heatz123/naturalspeech/blob/main/models/models.py#L610~L616

或者直接把预训练模型的时长预测模块赋值给微调的模型，也可以在微调的时候不训练时长预测