黑羊
黑羊
这是警告不是报错,不用管。
`Failed to load audio: {e}` 可能是”训练集音频文件目录“造成的,我用相对路径也会报这个错,换音频文件夹的绝对路径就行了
感觉生成的语音效果受参考语音影响非常大。我2000条语音和10条语音微调出来差距也不大(不过都比底模像一点点)。
> @v-yunbin 想问下微调的文档在哪儿呀 没看到微调的方法 https://www.bilibili.com/video/BV12g4y1m7Uw/
@sunnnnnnnny 可以通过 ``` # 远程主机IP:端口号 xxx.xxx.xxx.xxx:9874 ``` 进行访问。 四个界面的端口号分别为:9874、9873、9872、9871。可以在config.py中进行查看和修改。
如果训练语音是日语,看看标注文件(xxx.list)里第三列的“ZH”有没有改成“JA”或“ja”。
@Hermit591 是“JA”或“ja”,不是“JP”
试了下应该读的是“hang”,鼻音重了点听起来像“heng”。 多音字建议用同音字替代或者用有正确读音的训练集对模型进行微调(但是微调也可能产生新的错误读音)。
打开cmd,输入 `nvidia-smi` 看看具体是哪些进程在占显存,我 batch_size=16 时SoVITS 约占 13.5G 显存,GPT 约占 14.5G 显存。 显存不够就等SoVITS训练完了再训练GPT。
应该还需要正确的文本吧,实际使用起来可能和TTS差不多。