MaxMax2016 comments

Results 243 comments of


                                            MaxMax2016

16k和48k的二选一还是两种都要？

> 都要，现在感觉48k可能是负优化，不如16k > > 我现在用好一些的数据去练一下48k模型，验证一下是否真的是负优化确实，偷懒了，低音会出现问题。看来还是要老老实实的，正正经经的训练48K模型。

杂音很重

16K的模型要用16K的代码，https://github.com/PlayVoice/lora-svc-16k 这里有备份，您看看是不是16K的代码呢？

杂音很重

预训练模型是可以直接推理的，可以用预训练模型试试，需要设置发音人config/singers/****.npy

杂音很重

是不是内容编码和提取的pitch不匹配呢？svc_out_pitch.wav正常不？

杂音很重

试试用tensorboard --logdir logs/ 看看训练过程中生成的音频正不正常

SpeakerAdapter

它出至微软AdaSpeech，在低资源的情况下有点用，如果用来fine-tune的数据也还行的话、和说话人embedding感觉没多大差别

请问48K比特率是否是24bit？

模型运算用的float，生成的wav也是48K的float，最后是否保存为24bit都行。

可以是48 24bit的, 被重采成16bit 这个是重采样的代码，如果介意int16，可以保存为32bit > def resample_wave(wav_in, wav_out, sample_rate): > wav, _ = librosa.load(wav_in, sr=sample_rate) > wav = wav / np.abs(wav).max() * 0.6 > wav = wav / max(0.01, np.max(np.abs(wav)))...

请问48K比特率是否是24bit？

哦，现在训练代码用的scipy.wave.read，它只支持16bit和32bit，需要修改代码支持24bit