MaxMax2016
MaxMax2016
不能,深度学习模型具有遗忘的特性;得3个一起训练
> 具体是在哪部分实现的呢,我看推理代码也就是读取pitch,然后传入inference,没有看到其他操作了 这这样的,原来crepe出来的pitch,需要经过UV去掉picth;现在测试,不经过UV去掉pitch好些。 原来的 ``` def compute_f0_sing(filename, device): audio, sr = librosa.load(filename, sr=16000) assert sr == 16000 audio = torch.tensor(np.copy(audio))[None] # Here we'll use a 20 millisecond hop length hop_length...
测试下来是这样,预处理用USP会导致推理的时候不可控,比如长音从中间断开
I have not try SLMGAN based discriminators. Maybe it requires more computing resources, but it is really a good approach.
不正常,你是先训练好bigvgan-mix-v2的模型后,然后在训好的模型上面训练的diff分支吗?
你是4分钟的数据吗?数据是否敏感?能发给我试试吗?
这是使用GradSVC训练150epoch的日志和模型,现在GradSVC音色相似度还不够,但没出现上面的那种me 链接:https://pan.baidu.com/s/1eOBXMOt0Bh9DB-HcwZPvEw?pwd=t8nf 提取码:t8nf 5.0我明天再试试
我先发个我的diff插件模型给你测测吧,我也在复现中~~~ 链接:https://pan.baidu.com/s/1z5IDJ6Sm7oepv5yg-KZK5w?pwd=4r77 提取码:4r77 我复现的时候,忘记设置主模型了,得重来,设置好会有这样的打印: python svc_trainer.py --config configs/base.yaml --name plug Batch size per GPU : 8 ----------10---------- 2023-09-06 06:31:23,136 - INFO - Start from 32k pretrain model: sovits5.0_1100.pt post.estimator.spk_mlp.0.weight is...
主模型模没设置就是上面那个图 > mel图看不出是人声的频谱,可能是训练集少?(4.5min,但是游戏解包音质) > >  这是正常的mel图 
你的错误是什么?