GPT-SoVITS
GPT-SoVITS copied to clipboard
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
谢谢,这个可是神器啊。
如题,感谢大佬的work!不过个人想了解一下大佬是怎么训练的,能够透露一下训练的过程,供学习参考。谢谢!
我看模型生成的音频是32k的,如果出16k甚至是8k的模型,推理速度是否能够提高,毕竟有些场景对音频的质量并不会有多大的追求。
我看Mega-TTS2中提的MRTE是文本作Q,音频作KV,但在SoVITS的实现中是音频作Q,文本作KV,然后结果再加上音频的Embedding和global embedding,请问这里是有做过对比试验效果更好吗?
合成时能否进行语速与音量的控制,参数分别是什么
我的音源量足够,但是质量可能不太够。这个工程对数据质量要求应该比较高,因为我用3小时普通话纯人声(无手动打标)训出来的模型效果只能算差强人意。在这种情况下,我只能手动一条条打标,筛选出质量高的片段吗,但这个工作量有点大了。想请问各位大佬还有没有什么更省人工的方式。
使用0c-中文批量离线ASR工具时提示Please install rotary_embedding_torch by: pip instali -U rotary_embedding. torch
要不要开一个 Discord Server 来讨论和这个项目相关的内容?
使用Readme中的命令可能出现安装的CLI 没有download 选项 可以使用 pip install -U "huggingface_hub[cli]" 来安装cli [来源](https://huggingface.co/docs/huggingface_hub/guides/cli)