MaxMax2016

Results 243 comments of MaxMax2016

嗯嗯,只是这里计算出来的叫均值和方差

预训练模型训练好之后,会去做测试

是的,要用uvr5分离

因为刚开始训练的时候,encoder还学的不好。encoder和diffusion都在拟合mel谱图,没有diffusion encoder也可以独立工作,整合系统甚至可以把diffusion完全删除也是可以的。等encoder学好了,在加入diffusion训练,可以节约训练时间。diffusion训两百个epoch可以看到效果。

256是声纹向量的维度

单卡,改用多卡要调学习率的吧

电音是由于mel的模糊导致的;从hubert到mel,模型的建模能力不够就会导致mel丢失细节,从而产生电音。wavLM没有试过。

基于完全开源的数据:https://github.com/Multi-Singer/Multi-Singer.github.io

sorry, this project is SVC.