MockingBird 第二次贡献模型，同时谈谈相关经验。

先上图再说 attention_step_70000_sample_1 step-70000-mel-spectrogram_sample_1

aidatatang_200zh以及aishell3两个数据集，混合训练，batch size 96。 在训练40K就可以达到0.18了，不过我觉得还是多训练一会好， 所以分享的这个是70K、0.2的模型。

链接：https://pan.baidu.com/s/17yWmyq6_rh5MbCOwE3hH2Q 提取码：7777

[ ] 最新版本可用

接下来为个人训练模型经验，可不看。

[ ] 1、batch size对于loss值影响巨大，同样的混合训练，12和96这两个值会得到完全不同的结果，体现在：默认batch size 12的情况下，loss值很难达到0.35以下，而且不停的波动，且波动数值巨大。比如0.3跳0.5再跳回0.3。故个人建议尽可能开到比较大的batch size。32G显存在训练混合数据集时，最高稳定值在96，供参考。
[ ] 2、本项目对游戏角色语音，例如王者荣耀语音克隆，无法得到好的结果。体现在模型克隆出来出现严重的机器音，或者音色根本不像。个人猜测是因为提供的4个数据集本身就是日常的一个对话，并没有游戏角色语音的情感等，所以无法很好克隆游戏的角色语音。
[ ] 以上仅为萌新的个人经验，不代表是对的，也很有可能是错误的，仅供参考。

Dec 02 '21 07:12 ferretgeek

非常感谢提供模型，刚刚尝试了一下，体验如下：

1.整体效果较Readme中的第一个模型（三个数据集混合），还是有一些差距； 2.电音有点大，我在测“北京天气很不错”的时候，“错”字会出现回声； 3.在切换了录音人的时候，发现生成的是一样的音色，这一点有点不太理解（替换其他模型的时候，不会出现这样的问题） 4.对于batch size 深以为然，我用的是batch 12，三个数据集混合，到133k step，依然是电音，效果很差，准备重新训练。

再次感谢，希望大家一起交流，训练出好的模型

Dec 06 '21 03:12 443127316

非常感谢提供模型，刚刚尝试了一下，体验如下：

1.整体效果较Readme中的第一个模型（三个数据集混合），还是有一些差距； 2.电音有点大，我在测“北京天气很不错”的时候，“错”字会出现回声； 3.在切换了录音人的时候，发现生成的是一样的音色，这一点有点不太理解（替换其他模型的时候，不会出现这样的问题） 4.对于batch size 深以为然，我用的是batch 12，三个数据集混合，到133k step，依然是电音，效果很差，准备重新训练。

再次感谢，希望大家一起交流，训练出好的模型

个人之前用220K的aishell3单数据集克隆真实的女生语音，测试时就很不错。这个只跑了70K应该是比较差的，虽然loss值好看。但我并没有实际测试过这个70K的，因为无法生成有效的游戏角色语音克隆，故就放弃。

Dec 06 '21 03:12 ferretgeek

试用了几个现有的分享，能正常发音就很不错了，大多数情况下，要么是电音，要么就是部分是杂音，更不用说和原始声音相似了，距离克隆声音还有一段路，无奈自己的机器不行，没法自己训练

Dec 08 '21 03:12 delcompan

试用了几个现有的分享，能正常发音就很不错了，大多数情况下，要么是电音，要么就是部分是杂音，更不用说和原始声音相似了，距离克隆声音还有一段路，无奈自己的机器不行，没法自己训练

这个主要分享经验，如果你要相对好的结果，可以看我之前分享的160K aishell3，往后翻翻能找到

Dec 08 '21 03:12 ferretgeek

@ferretgeek 非常感谢各位的无私分享

Dec 08 '21 03:12 delcompan

其实iteration不是一个很好的指标，bs(batch size)=12的时候一个iter模型能看到12个数据，而bs=96的时候一个iter模型能看到96个数据。所以同样10k的模型，bs=12和96是不具备太大的可比性的。非要比的话bs=96的40k和bs=12的320k是可以比一比的。

Dec 14 '21 16:12 wrk226

置顶了哦

Dec 26 '21 03:12 babysor

qiu'jiao求教，安装模型后运行出现Tacotron报错，已参考#37、#209均无法解决，烦请各位帮助，谢谢

Jan 06 '22 06:01 Kristen-PRC

想咨询一下楼主 BATCH SIZAE怎么调高我感觉我的3080TI还能再冲一冲

May 30 '22 08:05 gxground

想咨询一下楼主 BATCH SIZAE怎么调高我感觉我的3080TI还能再冲一冲

訓練合成器時：將 synthesizer/hparams.py中的batch_size參數調小

//調整前 tts_schedule = [(2, 1e-3, 20_000, 12), # Progressive training schedule (2, 5e-4, 40_000, 12), # (r, lr, step, batch_size) (2, 2e-4, 80_000, 12), # (2, 1e-4, 160_000, 12), # r = reduction factor (# of mel frames (2, 3e-5, 320_000, 12), # synthesized for each decoder iteration) (2, 1e-5, 640_000, 12)], # lr = learning rate //調整後 tts_schedule = [(2, 1e-3, 20_000, 8), # Progressive training schedule (2, 5e-4, 40_000, 8), # (r, lr, step, batch_size) (2, 2e-4, 80_000, 8), # (2, 1e-4, 160_000, 8), # r = reduction factor (# of mel frames (2, 3e-5, 320_000, 8), # synthesized for each decoder iteration) (2, 1e-5, 640_000, 8)], # lr = learning rate

这里调整。另外3080TI的显存其实并不足以开多大，个人推荐从32开始看看能不能加，如果32都不行就慢慢减少

May 30 '22 09:05 ferretgeek

成功了非常感谢~~~ 我社区模型自己跑了20K左右我现在改BATCH SIZE 建议继续跑呢还是重新跑好

May 30 '22 09:05 gxground

File "D:\anaconda3\envs\mocking_bird\lib\site-packages\torch\nn\modules\module.py", line 1671, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Tacotron: size mismatch for encoder_proj.weight: copying a param with shape torch.Size([128, 1024]) from checkpoint, the shape in current model is torch.Size([128, 512]). size mismatch for gst.stl.attention.W_query.weight: copying a param with shape torch.Size([512, 512]) from checkpoint, the shape in current model is torch.Size([512, 256]). size mismatch for decoder.attn_rnn.weight_ih: copying a param with shape torch.Size([384, 1280]) from checkpoint, the shape in current model is torch.Size([384, 768]). size mismatch for decoder.rnn_input.weight: copying a param with shape torch.Size([1024, 1152]) from checkpoint, the shape in current model is torch.Size([1024, 640]). size mismatch for decoder.stop_proj.weight: copying a param with shape torch.Size([1, 2048]) from checkpoint, the shape in current model is torch.Size([1, 1536]).

tag为 v0.0.1，替换楼主的模型后报错。大神们有没有遇到的

Mar 08 '23 17:03 harrett

试用了几个现有的分享，能正常发音就很不错了，大多数情况下，要么是电音，要么就是部分是杂音，更不用说和原始声音相似了，距离克隆声音还有一段路，无奈自己的机器不行，没法自己训练

这个主要分享经验，如果你要相对好的结果，可以看我之前分享的160K aishell3，往后翻翻能找到

请问这个160K aishell3的在哪里可以找到呢，试了好几个模型，效果都比较不理想，想看看案例后自己训练

Oct 06 '23 05:10 hanc44

MockingBird MockingBird copied to clipboard

第二次贡献模型，同时谈谈相关经验。

MockingBird
MockingBird copied to clipboard