GPT-SoVITS
GPT-SoVITS copied to clipboard
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
Traceback (most recent call last): File "H:\AI\gpt sovits\GPT-SoVITS\beta\GPT-SoVITS-beta\tools\subfix_webui.py", line 310, in set_global(args.load_json, args.load_list, args.json_key_text, args.json_key_path, args.g_batch) File "H:\AI\gpt sovits\GPT-SoVITS\beta\GPT-SoVITS-beta\tools\subfix_webui.py", line 295, in set_global b_load_file() File "H:\AI\gpt sovits\GPT-SoVITS\beta\GPT-SoVITS-beta\tools\subfix_webui.py", line 274, in...
把多角色的音频放到一起训练出来的模型,通过不同角色的参考音频来切换音色,和单角色分开训练模型,效果上会有区别吗?哪个会更好? 多角色音频放到一起训练模型,是不是更像底模?可以更加适配训练的那些角色音色吗
我找到暫時的解法了 打開GPT-SoVITS\runtime\lib\site-packages\torch\distributed\rendezvous.py 找到這行start_daemon = rank == 0大約在175行 下方增加一行hostname = "localhost"就可以了 已加入,仍然無效
我无法在 Google Colab 上训练,Colab 有很多错误,就像训练时一样 这是我尝试训练时的照片 
添加参考音频索引下拉列表功能
尝试使用阿里KAN-TTS的前端TTSRFD处理文本,需要引入 install ttsfrd==0.2.1 -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html 该前端可以处理 %百分号在文本里会导致error不能推理 还有 元/吨 会读成 元吨 而不是元每吨这类问题 兼容性: 1、该前端中文处理可以直接处理中英混合,所以将项目中英混合部分进行了调整,使中英混合部分更加连贯。但该前端无法处理日英混合,会输出像英语又像日语的奇怪英文,继续使用日英切分进行处理。 2、该前端闭源,只支持直接输出处理后的音素,阿里的音素与本项目模型音素存在部分细分不同,直接做了chinese_dict、english_dict、japanese_dict对差异音素进行转换,中文部分几个音不确定转换是否准确,需要更多测试。 3、该前端可以将 ”元/吨“ 处理为 ”元每吨“,”xx/kg"处理为“xx每公斤”,但无法输出处理后的文字,只有音素,导致无法使用get_bert_feature(norm_text和word2ph对应不上),此处直接先像英语日语一样处理。 其他: LangSegment.getTexts需要标点符号加持才能分割中日,类似“マクドナルド是麦当劳”这样一整句它都会直接输出“ja”“マクドナルド是麦当劳”。只有“マクドナルド,是麦当劳”才能准确分割出中日两段。可能需要做优化。
修改完后即可支持 Linux 下纯 CPU 的训练和推导。 但是这是一个破坏性更新。 修改完后会导致 MacOS 不能正常使用。 希望大佬们修改修改。 另见 https://github.com/RVC-Boss/GPT-SoVITS/issues/373
我没有高版本 Nvidia 显卡……没事,用 CPU 代替。 根据 [README](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md) 文档,我发现了 MacOS 是可以使用 CPU 的,于是我寻思 Linux 应该也可以。 然后,我注意到了 https://github.com/RVC-Boss/GPT-SoVITS/issues/290 https://github.com/RVC-Boss/GPT-SoVITS/issues/165 https://github.com/RVC-Boss/GPT-SoVITS/issues/93。 以下是具体方法: #### 首先,跟着 README 走: > - 创建环境 > > ```bash >...
显卡显存还有很多剩余,但是用到了共享显存,降低了性能 
添加手动语义字幕语音切分工具(多角色)