MockingBird icon indicating copy to clipboard operation
MockingBird copied to clipboard

第二次贡献模型,同时谈谈相关经验。

Open ferretgeek opened this issue 2 years ago • 13 comments

先上图再说 attention_step_70000_sample_1 step-70000-mel-spectrogram_sample_1

aidatatang_200zh以及aishell3两个数据集,混合训练,batch size 96。 在训练40K就可以达到0.18了,不过我觉得还是多训练一会好, 所以分享的这个是70K、0.2的模型。

链接:https://pan.baidu.com/s/17yWmyq6_rh5MbCOwE3hH2Q 提取码:7777

  • [ ] 最新版本可用

接下来为个人训练模型经验,可不看。

  • [ ] 1、batch size对于loss值影响巨大,同样的混合训练,12和96这两个值会得到完全不同的结果,体现在:默认batch size 12的情况下,loss值很难达到0.35以下,而且不停的波动,且波动数值巨大。比如0.3跳0.5再跳回0.3。故个人建议尽可能开到比较大的batch size。32G显存在训练混合数据集时,最高稳定值在96,供参考。

  • [ ] 2、本项目对游戏角色语音,例如王者荣耀语音克隆,无法得到好的结果。体现在模型克隆出来出现严重的机器音,或者音色根本不像。个人猜测是因为提供的4个数据集本身就是日常的一个对话,并没有游戏角色语音的情感等,所以无法很好克隆游戏的角色语音。

  • [ ] 以上仅为萌新的个人经验,不代表是对的,也很有可能是错误的,仅供参考。

ferretgeek avatar Dec 02 '21 07:12 ferretgeek

非常感谢提供模型,刚刚尝试了一下,体验如下:

1.整体效果较Readme中的第一个模型(三个数据集混合),还是有一些差距; 2.电音有点大,我在测“北京天气很不错”的时候,“错”字会出现回声; 3.在切换了录音人的时候,发现生成的是一样的音色,这一点有点不太理解(替换其他模型的时候,不会出现这样的问题) 4.对于batch size 深以为然,我用的是batch 12,三个数据集混合,到133k step,依然是电音,效果很差,准备重新训练。

再次感谢,希望大家一起交流,训练出好的模型

443127316 avatar Dec 06 '21 03:12 443127316

非常感谢提供模型,刚刚尝试了一下,体验如下:

1.整体效果较Readme中的第一个模型(三个数据集混合),还是有一些差距; 2.电音有点大,我在测“北京天气很不错”的时候,“错”字会出现回声; 3.在切换了录音人的时候,发现生成的是一样的音色,这一点有点不太理解(替换其他模型的时候,不会出现这样的问题) 4.对于batch size 深以为然,我用的是batch 12,三个数据集混合,到133k step,依然是电音,效果很差,准备重新训练。

再次感谢,希望大家一起交流,训练出好的模型

个人之前用220K的aishell3单数据集克隆真实的女生语音,测试时就很不错。这个只跑了70K应该是比较差的,虽然loss值好看。但我并没有实际测试过这个70K的,因为无法生成有效的游戏角色语音克隆,故就放弃。

ferretgeek avatar Dec 06 '21 03:12 ferretgeek

试用了几个现有的分享,能正常发音就很不错了,大多数情况下,要么是电音,要么就是部分是杂音,更不用说和原始声音相似了,距离克隆声音还有一段路,无奈自己的机器不行,没法自己训练

delcompan avatar Dec 08 '21 03:12 delcompan

试用了几个现有的分享,能正常发音就很不错了,大多数情况下,要么是电音,要么就是部分是杂音,更不用说和原始声音相似了,距离克隆声音还有一段路,无奈自己的机器不行,没法自己训练

这个主要分享经验,如果你要相对好的结果,可以看我之前分享的160K aishell3,往后翻翻能找到

ferretgeek avatar Dec 08 '21 03:12 ferretgeek

@ferretgeek 非常感谢各位的无私分享

delcompan avatar Dec 08 '21 03:12 delcompan

其实iteration不是一个很好的指标,bs(batch size)=12的时候一个iter模型能看到12个数据,而bs=96的时候一个iter模型能看到96个数据。所以同样10k的模型,bs=12和96是不具备太大的可比性的。非要比的话bs=96的40k和bs=12的320k是可以比一比的。

wrk226 avatar Dec 14 '21 16:12 wrk226

置顶了哦

babysor avatar Dec 26 '21 03:12 babysor

image qiu'jiao求教,安装模型后运行出现Tacotron报错,已参考#37、#209均无法解决,烦请各位帮助,谢谢

Kristen-PRC avatar Jan 06 '22 06:01 Kristen-PRC

想咨询一下楼主 BATCH SIZAE怎么调高 我感觉我的3080TI还能再冲一冲

gxground avatar May 30 '22 08:05 gxground

想咨询一下楼主 BATCH SIZAE怎么调高 我感觉我的3080TI还能再冲一冲

訓練合成器時:將 synthesizer/hparams.py中的batch_size參數調小

//調整前 tts_schedule = [(2, 1e-3, 20_000, 12), # Progressive training schedule (2, 5e-4, 40_000, 12), # (r, lr, step, batch_size) (2, 2e-4, 80_000, 12), # (2, 1e-4, 160_000, 12), # r = reduction factor (# of mel frames (2, 3e-5, 320_000, 12), # synthesized for each decoder iteration) (2, 1e-5, 640_000, 12)], # lr = learning rate //調整後 tts_schedule = [(2, 1e-3, 20_000, 8), # Progressive training schedule (2, 5e-4, 40_000, 8), # (r, lr, step, batch_size) (2, 2e-4, 80_000, 8), # (2, 1e-4, 160_000, 8), # r = reduction factor (# of mel frames (2, 3e-5, 320_000, 8), # synthesized for each decoder iteration) (2, 1e-5, 640_000, 8)], # lr = learning rate

这里调整。另外3080TI的显存其实并不足以开多大,个人推荐从32开始看看能不能加,如果32都不行就慢慢减少

ferretgeek avatar May 30 '22 09:05 ferretgeek

成功了非常感谢~~~ 我社区模型自己跑了20K左右 我现在改BATCH SIZE 建议继续跑呢 还是重新跑好

gxground avatar May 30 '22 09:05 gxground

File "D:\anaconda3\envs\mocking_bird\lib\site-packages\torch\nn\modules\module.py", line 1671, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Tacotron: size mismatch for encoder_proj.weight: copying a param with shape torch.Size([128, 1024]) from checkpoint, the shape in current model is torch.Size([128, 512]). size mismatch for gst.stl.attention.W_query.weight: copying a param with shape torch.Size([512, 512]) from checkpoint, the shape in current model is torch.Size([512, 256]). size mismatch for decoder.attn_rnn.weight_ih: copying a param with shape torch.Size([384, 1280]) from checkpoint, the shape in current model is torch.Size([384, 768]). size mismatch for decoder.rnn_input.weight: copying a param with shape torch.Size([1024, 1152]) from checkpoint, the shape in current model is torch.Size([1024, 640]). size mismatch for decoder.stop_proj.weight: copying a param with shape torch.Size([1, 2048]) from checkpoint, the shape in current model is torch.Size([1, 1536]).

tag为 v0.0.1,替换楼主的模型后报错。大神们有没有遇到的

harrett avatar Mar 08 '23 17:03 harrett

试用了几个现有的分享,能正常发音就很不错了,大多数情况下,要么是电音,要么就是部分是杂音,更不用说和原始声音相似了,距离克隆声音还有一段路,无奈自己的机器不行,没法自己训练

这个主要分享经验,如果你要相对好的结果,可以看我之前分享的160K aishell3,往后翻翻能找到

请问这个160K aishell3的在哪里可以找到呢,试了好几个模型,效果都比较不理想,想看看案例后自己训练

hanc44 avatar Oct 06 '23 05:10 hanc44