GPT-SoVITS clone效果非常棒，求问下为啥infer里需要spec

clone效果非常棒，求问下为啥infer里需要spec_len*2

Open Jiang-Stan opened this issue 1 year ago • 5 comments

https://github.com/RVC-Boss/GPT-SoVITS/blob/93dd8334f4ce7fb5ccdeabebe05deb26a3cf30fb/GPT_SoVITS/module/models.py#L967

上面这段代码，我理解应该是code len推spec len吧。我看在训练中如果semantic_hz=25的话就是二倍关系，但semantic_hz=50的话似乎应该是等长的？目前不影响infer测试，应该是由于infer的semantic_hz=25吧，但感觉是个潜在的坑

Jan 24 '24 09:01 Jiang-Stan

请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢？

Jan 24 '24 09:01 songyinghao

请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢？

刚开始训，而且我这是有改动接了别的semantic token的。按作者写的应该是在2k小时上训了100epoch吧，单机8卡 bs32

Jan 24 '24 09:01 Jiang-Stan

请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢？

刚开始训，而且我这是有改动接了别的semantic token的。按作者写的应该是在2k小时上训了100epoch吧，单机8卡 bs32

方便说一下改动的那块具体是什么吗

Jan 25 '24 14:01 songyinghao

25hz没影响，50hz是否有坑我要排查一下。

Jan 25 '24 16:01 RVC-Boss

@Jiang-Stan 您好请问更换semantic token部分有对最终效果有提升吗？

Jan 28 '24 18:01 CloudTronUSA