CloudTron
CloudTron
我的是4090也有同样问题 关了半精度就好了
@RVC-Boss NAN经常出现,80%的语言都被过滤了 However,开了全精度就没事了,但是在 wav32k 下的语言有破音的问题 把 `GPT-SoVITS/GPT_SoVITS/prepare_datasets/my_utils.py` 里的 `load_audio(file, sr)` 改为 ``` def load_audio_safe(file, sr): data, sampling_rate = librosa.load(file, sr=sr) return np.frombuffer(data, np.float32).flatten() ``` 可以解决这个问题,而且(目前来说)对训练没影响。
我自己开了一个,如果有需要可以加入: https://discord.gg/45YufbXJ
关于广东话相关的 这个我也可以帮忙 很期待哪一天喜欢的角色可以学会我的家乡话~
似乎需要训练一个底模以及一个GPT 模型 周末看看
i think the main focus should be making a GPT model that supports Cantonese generation sovits itself should have no problem adapting to Cantonese - there are a lot of...
> Hi @CloudTronUSA I stumbled upon an open-source base model at https://huggingface.co/xiaomaiiwn/vits-cantonese/tree/main/model, which comes with G.pth and D.pth files. Do you think it's possible to utilize this as the Pretrained...
@RVC-Boss 大佬能否详细说一下 GPT 模型 和 SoVITS 模型 在训练过程中是怎么配合工作的?以及数据是怎么处理的? 我试试看能不能研究一下广东话合成。 某游戏的新角色用普通话读粤语台词实在是太尴尬了...... 得把语音替换了不然难受死
@drymass2023 I found this by RVC-BOSS from another issue, might help train: preprocess_stage1:wav->hubert,text->bert stage1: hubert->token----(+text+reference_encoder_embedding)---->wav (sovits) preprocess_stage2:hubert->token stage2: tokens+bert+text->tokens (gpt (More accurately, it is Soundstorm stage_AR.)) fine tune: preprocess_stage:wav->hubert->token,text->bert stage1:...