MaxMax2016
MaxMax2016
> 都要,现在感觉48k可能是负优化,不如16k > > 我现在用好一些的数据去练一下48k模型,验证一下是否真的是负优化 确实,偷懒了,低音会出现问题。看来还是要老老实实的,正正经经的训练48K模型。
训的48K么?现在48K唱低音是有问题,不知道您遇到的是不是这样的问题?
16K的模型要用16K的代码,https://github.com/PlayVoice/lora-svc-16k 这里有备份,您看看是不是16K的代码呢?
预训练模型是可以直接推理的,可以用预训练模型试试,需要设置发音人config/singers/****.npy
是不是内容编码和提取的pitch不匹配呢?svc_out_pitch.wav正常不?
试试用tensorboard --logdir logs/ 看看训练过程中生成的音频正不正常
它出至微软AdaSpeech,在低资源的情况下有点用,如果用来fine-tune的数据也还行的话、和说话人embedding感觉没多大差别
模型运算用的float,生成的wav也是48K的float,最后是否保存为24bit都行。
可以是48 24bit的, 被重采成16bit 这个是重采样的代码,如果介意int16,可以保存为32bit > def resample_wave(wav_in, wav_out, sample_rate): > wav, _ = librosa.load(wav_in, sr=sample_rate) > wav = wav / np.abs(wav).max() * 0.6 > wav = wav / max(0.01, np.max(np.abs(wav)))...
哦,现在训练代码用的scipy.wave.read,它只支持16bit和32bit,需要修改代码支持24bit