RVC-Boss

Results 481 comments of RVC-Boss

train: preprocess_stage1:wav->hubert,text->bert stage1: hubert->token----(+text+reference_encoder_embedding)---->wav (sovits) preprocess_stage2:hubert->token stage2: tokens+bert+text->tokens (gpt (More accurately, it is Soundstorm stage_AR.)) fine tune: preprocess_stage:wav->hubert->token,text->bert stage1: token------(+text+reference_encoder_embedding)----->wav (sovits_decoder) stage2: tokens+bert+text->tokens (gpt) inference: text->bert prompt_wav->prompt_token (sovits_encoder) prompt_token+todo_text+todo_bert->completed token...

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/FAQ-(Frequently-Asked-Questions)#q8cuda-errorcuda-out-of-memory

主WebUI不吃显存,所有吃显存的进程都通过命令行调用另起,如果要释放勾选关闭。

一个是参考音频和参考音频的打标很重要,如果参考音频说不清楚的要换, 二是微调不能太久,1~40分钟的素材默认轮数就好,更多的还要降低轮数, 第三是如果合成文本太长需要先切分。

> @RVC-Boss 您好,大概 200分钟 的语言大概跑多少轮比较好? 我用的是 Warma 爆炸电台的语言,质量挺高的,自动打标的输出也八九不离十。 目前测试了 SVC 在 epoch 2-3 比较好,GPT在 epoch 3-4 比较好,但还是有少量的漏字,字读音混在一起,和电流音的问题。 > > 还有就是那个 “文本模块学习率权重” 怎么调比较好?我目前是 0.45 > > ==== 实验数据 ==== * Converted...

> 训练好中文的,里面就一个英文单词都不行吗? @selfboot @1713172499 中英混合已支持

念的慢一点点 要改为 念的,慢一点点 因为中间有停顿

Tested would not be passed if you delete the jsons in gpt-sovits i18n root.