GPT-SoVITS
GPT-SoVITS copied to clipboard
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
是否可以简单写一个ubuntu环境下能够正确跑的教程呢?感谢
有不少中文专用词汇在英文中 是直接使用中文拼音的方式,希望支持
1、开的虚拟环境,win11,requirements列表也拉取了,ffmpeg也放在指定路径了,python3.9,所有模型都下载了,不知道问题出在哪里。 2、运行uvr的时候报错,UnboundLocalError: local variable 'pre_fun' referenced before assignment
我在网上下载的了别人整理好的数据集,里面是一个音频对应一个文本的。比如:voice001.wav, voice001.txt ...... 希望项目能够支持导入这一类数据集的使用,谢谢
Support third-party dataset import.
1、中英文混合不行,会跳过英文的部分。 2、会有漏读的情况,部分文字直接跳过了。 3、生成的语音,有概率会在前面一段生成范例的音频。 不完美的地方: 1、生成速度慢,cuda没有完全利用上,可以把gpu榨干。 2、生成不够稳定,有时候效果非常棒,有时候差点意思。
在推理页面添加了记录生成音频的功能,方便比较,后续可能添加合并选中音频的功能。 另外添加了一个脚本直接启动推理页面 
GPU: GTX 1660Ti Windows 10 22H2 在AutoDL使用官方镜像加载本地训练的模型可正常合成语音。
Sorry if it's already on your todo list. The ASR tool can read english audio _ok_ but it's not as good as whisper. It would be convenient if whisper or...