MaxMax2016
MaxMax2016
要用微调的方式训练自己的发音人,推荐这个仓库,https://github.com/Plachtaa/VITS-fast-fine-tuning ,多人模型可以用别人弄好的
是输入什么句子出现这个问题的呢?
有en1~5 没en
需要确定是哪个字导致的问题
我训得也不快啊,如果调参的话,可以加载没调的部分网络参数来加速训练
初步训练的时候不加这个loss,模型训练好后,再加上这个loss继续训练~稍微训练一下把kl loss拉下来就好了
数据质量高得话,冻结和不冻结差差不多,数据比较差,冻结保险点。
通过tensorboard --host 0.0.0.0 --logdir='logs/'去查看训练日志,然后去听每个pth对的音频,达到期望状态就可以停了。这个训练需要手动去停止,否则会一直训练2W轮(很久很久)
完全不对啊
configs文件夹里面的json配置文件中 "fp16_run": true,修该成false