MaxMax2016
MaxMax2016
好的,收到
嗯嗯,只是这里计算出来的叫均值和方差
预训练模型训练好之后,会去做测试
是的,要用uvr5分离
因为刚开始训练的时候,encoder还学的不好。encoder和diffusion都在拟合mel谱图,没有diffusion encoder也可以独立工作,整合系统甚至可以把diffusion完全删除也是可以的。等encoder学好了,在加入diffusion训练,可以节约训练时间。diffusion训两百个epoch可以看到效果。
256是声纹向量的维度
单卡,改用多卡要调学习率的吧
电音是由于mel的模糊导致的;从hubert到mel,模型的建模能力不够就会导致mel丢失细节,从而产生电音。wavLM没有试过。
基于完全开源的数据:https://github.com/Multi-Singer/Multi-Singer.github.io
sorry, this project is SVC.