GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

训练结果推理不理想,请教如何优化训练环节?

Open ccjackcong opened this issue 1 year ago • 7 comments

在看了各位大佬的分享经验,终于在mbp上跑起来了,感谢大家的分享。 但是有个问题,就是推理出来的声音没有大家演示的那么好。第一次推理默认步数,发现声音呼呼的没有字音,然后又增加了训练步数到15和30。然后推理还是不行。最后试了试训练后模型中步数最小的两个推理,有字音了,但是不那么理想。不知道这个和训练素材的长短是否有关?我现在是切割后11条,时长是56秒的素材。另外,这个素材的长度,以及与训练步数的设置,是否有什么关联呢?辛苦大佬指点一二,谢谢啦。 截屏2024-01-28 15 58 48

ccjackcong avatar Jan 28 '24 08:01 ccjackcong

在看了各位大佬的分享经验,终于在mbp上跑起来了,感谢大家的分享。 但是有个问题,就是推理出来的声音没有大家演示的那么好。第一次推理默认步数,发现声音呼呼的没有字音,然后又增加了训练步数到15和30。然后推理还是不行。最后试了试训练后模型中步数最小的两个推理,有字音了,但是不那么理想。不知道这个和训练素材的长短是否有关?我现在是切割后11条,时长是56秒的素材。另外,这个素材的长度,以及与训练步数的设置,是否有什么关联呢?辛苦大佬指点一二,谢谢啦。 截屏2024-01-28 15 58 48

建议云端训练试试,我测下来一样情况

RoversX avatar Jan 29 '24 19:01 RoversX

跨语种合成语音这几个功能都很不错

vits-fast那个,我在colab里一直没训练好。你是在mac本地训练么?我一直没找到本地的训练方式,搭建了环境,没成功。

ccjackcong avatar Jan 30 '24 12:01 ccjackcong

在看了各位大佬的分享经验,终于在mbp上跑起来了,感谢大家的分享。 但是有个问题,就是推理出来的声音没有大家演示的那么好。第一次推理默认步数,发现声音呼呼的没有字音,然后又增加了训练步数到15和30。然后推理还是不行。最后试了试训练后模型中步数最小的两个推理,有字音了,但是不那么理想。不知道这个和训练素材的长短是否有关?我现在是切割后11条,时长是56秒的素材。另外,这个素材的长度,以及与训练步数的设置,是否有什么关联呢?辛苦大佬指点一二,谢谢啦。 截屏2024-01-28 15 58 48

建议云端训练试试,我测下来一样情况

嗯,如果实在不行的话,就云端训练,本地推理了。

ccjackcong avatar Jan 30 '24 12:01 ccjackcong

跨语种合成语音这几个功能都很不错

vits-fast那个,我在colab里一直没训练好。你是在mac本地训练么?我一直没找到本地的训练方式,搭建了环境,没成功。

windows 本地训练

shirubei avatar Jan 30 '24 12:01 shirubei

跨语种合成语音这几个功能都很不错

vits-fast那个,我在colab里一直没训练好。你是在mac本地训练么?我一直没找到本地的训练方式,搭建了环境,没成功。

windows 本地训练

谢谢。我win的电脑配置不行,一直本地没搞起来。本以为这个终于有人关注mac电脑了,但是我运行起来了,训练的结果不理想。

ccjackcong avatar Jan 30 '24 12:01 ccjackcong

台式机,买个了二手的1080ti

shirubei avatar Jan 30 '24 12:01 shirubei

今晚重新搞了一下,感觉效果不错。之前我评论的那些事,是我自己弄错了。

shirubei avatar Jan 31 '24 15:01 shirubei