GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

clone效果非常棒,求问下为啥infer里需要spec_len*2

Open Jiang-Stan opened this issue 1 year ago • 5 comments

https://github.com/RVC-Boss/GPT-SoVITS/blob/93dd8334f4ce7fb5ccdeabebe05deb26a3cf30fb/GPT_SoVITS/module/models.py#L967

上面这段代码,我理解应该是code len推spec len吧。我看在训练中如果semantic_hz=25的话就是二倍关系,但semantic_hz=50的话似乎应该是等长的? 目前不影响infer测试,应该是由于infer的semantic_hz=25吧,但感觉是个潜在的坑

Jiang-Stan avatar Jan 24 '24 09:01 Jiang-Stan

请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢?

songyinghao avatar Jan 24 '24 09:01 songyinghao

请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢?

刚开始训,而且我这是有改动接了别的semantic token的。 按作者写的应该是在2k小时上训了100epoch吧,单机8卡 bs32

Jiang-Stan avatar Jan 24 '24 09:01 Jiang-Stan

请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢?

刚开始训,而且我这是有改动接了别的semantic token的。 按作者写的应该是在2k小时上训了100epoch吧,单机8卡 bs32

方便说一下 改动的那块具体是什么吗

songyinghao avatar Jan 25 '24 14:01 songyinghao

25hz没影响,50hz是否有坑我要排查一下。

RVC-Boss avatar Jan 25 '24 16:01 RVC-Boss

@Jiang-Stan 您好 请问更换semantic token部分有对最终效果有提升吗?

CloudTronUSA avatar Jan 28 '24 18:01 CloudTronUSA