MockingBird 【长期】训练克隆特定人声音&finetune

AyahaShirane 专项训练参照这个视频MockingBird数据集制作教程-手把手教你克隆海子姐的声线_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1dq4y137pH 实测在已有模型基础上训练20K左右就能改变成想要的语音语调了。你如果是想要泛用型台湾口音的话，就尽可能收集更多人的数据集，否则会偏向特定某一个人的口音，而且断句和停顿似乎也会受到新数据集的影响 Reference: #380

作者却苦于近期精力限制只能势单力薄处理一些小的bug，也看到issue区有不少爱好与开发者想要学习或二次改造更好满足自己需求，不过比较零碎难以展开。为了让项目和AI持续可以给大家提供更多价值，共同学习，我在issue区根据不同主题创建长期交流频道，若留言人数超过20也将建立对应交流群。

如何改参数，搞出更逼真的克隆效果 435

如何改模型，搞出更好效果 436

训练克隆特定人声音&finetune 437

学术/论文讨论/训练分析 438

跨语言支持 440

工程化/新场景讨论（绝不做恶 & 合法合规） 439

Mar 07 '22 15:03 babysor

fine-tune的话大概需要多少数据才能使音色比较相似

Mar 11 '22 09:03 1nlplearner

最好是小时级别得

Mar 12 '22 11:03 babysor

完全小白尝试，我想训练比如原神里安柏的声音，但发现训练出来都不像，可能因为声优配音通常都不是平调，会带有很多感情语气吧，不知道收集所有配音做个数据集后再训练会不会好一点？、像 https://github.com/babysor/MockingBird/issues/460 那样进行特化训练？，有模型分享更集中一点的平台吗？自己大概是训练不出来了，碰碰运气搞一搞目前，除了使用默认数据集Dataset、更改模型Synthesizer和Browse加入某个音频以外，其他栏目的作用和影响并不是很清楚

Mar 18 '22 08:03 SwordMasterJS

完全小白尝试，我想训练比如原神里安柏的声音，但发现训练出来都不像，可能因为声优配音通常都不是平调，会带有很多感情语气吧，不知道收集所有配音做个数据集后再训练会不会好一点？、像 #460 那样进行特化训练？，有模型分享更集中一点的平台吗？自己大概是训练不出来了，碰碰运气搞一搞目前，除了使用默认数据集Dataset、更改模型Synthesizer和Browse加入某个音频以外，其他栏目的作用和影响并不是很清楚

看起来你都还没训练把？

Mar 18 '22 15:03 babysor

是的，我想我得先换个电脑，只不过想事先了解一下可行性，或许还缺了亿点点学习时间

Mar 20 '22 14:03 SwordMasterJS

我想，配音数据过少的情况下，我或许可以把合成出来的某些句子，依靠自己的听力判断是否相像，挑出其中相像的拿来训练，循环往复，是不是就越来越接近了

Mar 20 '22 14:03 SwordMasterJS

我想，配音数据过少的情况下，我或许可以把合成出来的某些句子，依靠自己的听力判断是否相像，挑出其中相像的拿来训练，循环往复，是不是就越来越接近了

效率会比较低可以看下一楼的视频教程

Mar 24 '22 05:03 babysor

我想，配音数据过少的情况下，我或许可以把合成出来的某些句子，依靠自己的听力判断是否相像，挑出其中相像的拿来训练，循环往复，是不是就越来越接近了

效率会比较低可以看下一楼的视频教程

按视频做了，请问这几张图是否代表第二张图效果最好？那我要如何把模型回退到这一步?

Mar 27 '22 06:03 SwordMasterJS

我想，配音数据过少的情况下，我或许可以把合成出来的某些句子，依靠自己的听力判断是否相像，挑出其中相像的拿来训练，循环往复，是不是就越来越接近了

效率会比较低可以看下一楼的视频教程

按视频做了，请问这几张图是否代表第二张图效果最好？那我要如何把模型回退到这一步?

到群里获得解答了，默认每100k会生成一个新的pt，若要缩短间隔，需要自己改代码配置

Mar 29 '22 08:03 SwordMasterJS

您好，请问hifi-gan的电音问题可以通过微调解决吗预置的vocoder是在预测mels上训练的吗我看代码应该是在ground truth mels指导下生成的mels上训练的，而不是纯预测的mels上训练的

我用目标语音微调自己的synthesizer后，hifigan的电音竟然也消失了

Apr 11 '22 06:04 1nlplearner

目前我发现关于文本的标注中的词之间的停顿都没有加入模型进行训练，是这部分不好处理吗。因为现在克隆出的人声停顿还不太好。

Jul 15 '22 03:07 wflrz123

目前我发现关于文本的标注中的词之间的停顿都没有加入模型进行训练，是这部分不好处理吗。因为现在克隆出的人声停顿还不太好。

理论上可以加入的，预处理部分改下代码应该就可以了，有木有兴趣验证一下？可以帮忙找机器跑。另外注意symbols得覆盖停顿标志

Jul 15 '22 03:07 babysor

目前我发现关于文本的标注中的词之间的停顿都没有加入模型进行训练，是这部分不好处理吗。因为现在克隆出的人声停顿还不太好。

理论上可以加入的，预处理部分改下代码应该就可以了，有木有兴趣验证一下？可以帮忙找机器跑。另外注意symbols得覆盖停顿标志

预处理怎么加入对停顿的处理呢，我目前用%进行停顿标注，在symbols中覆盖了%的标注进行微调。

Jul 27 '22 06:07 wflrz123

关于克隆特定人声音的问题

1、是用主页提供的模型接着训练，还是自己从零训练好些？

2、自己准备数据集，大概需要多丰富的数据效果才能好？

Oct 07 '22 04:10 dsyrock

我想，配音数据过少的情况下，我或许可以把合成出来的某些句子，依靠自己的听力判断是否相像，挑出其中相像的拿来训练，循环往复，是不是就越来越接近了

效率会比较低可以看下一楼的视频教程

按视频做了，请问这几张图是否代表第二张图效果最好？那我要如何把模型回退到这一步?

到群里获得解答了，默认每100k会生成一个新的pt，若要缩短间隔，需要自己改代码配置

你好，问下，你最终自己校验的效果怎么样，我这边也只有20条左右的数据，也想人工干预下，有什么经验可以借鉴吗？