MaxMax2016
MaxMax2016
> 你好,因为我的bit录音的时候就是48k 24bit,所以我可以在训练前就做好所有的预处理,我的意思是预处理我自己手动作,包括音量标准啥的。因为我用了几种方式训练出来的声音,到最后总是觉得超高频很散,我怀疑就是问题出在重采这一块 24bit也可以转换为32bit的吧
要训练预训练模型对的话,音色要覆盖全,音高要覆盖全;训练单发音人的话,音高要覆盖全。音质要好。
哦,48K预训练模型要5 1之后才能发出来了。现在发的48K模型,复用的16K模型的参数,低频有问题。使用32bit,可以用16bit数据训练的预训练模型,模型都是用float训练的。
> 就是我有48 32bit的话,我可以自己做48K的模型对不对?只要够多?多人的声音是否OK? 是的,可以是多人的
> 就是我可以把很多人的干声,不管男的女的各种语言各种发音,只要是高质量的48k 32bit放在集里面一起跑?然后代码改成48k 32bit。然后回头这个模型就能当做我的预模型?是这个理解方式吗? 是的,只是不用改代码,之前说改代码是不支持24bit
数据够是可以的,至少无重复的wav 5000条;一般歌里面都大量重复的句子。
是的,之前弄的48K有问题
NumExpr defaulting to 2 threads. ----------0---------- 2023-04-01 21:56:48,782 - INFO - Resuming from checkpoint: model_pretrain/maxgan_pretrain.pth ----------25---------- print for debug display 0 item, is data path right?
assert sr == self.hp.audio.sampling_rate 这个是需要先将数据处理为16KHz @seq2193
采样率转换程序,https://github.com/PlayVoice/so-vits-svc/blob/main/resample.py