GPT-SoVITS
GPT-SoVITS copied to clipboard
clone效果非常棒,求问下为啥infer里需要spec_len*2
https://github.com/RVC-Boss/GPT-SoVITS/blob/93dd8334f4ce7fb5ccdeabebe05deb26a3cf30fb/GPT_SoVITS/module/models.py#L967
上面这段代码,我理解应该是code len推spec len吧。我看在训练中如果semantic_hz=25的话就是二倍关系,但semantic_hz=50的话似乎应该是等长的? 目前不影响infer测试,应该是由于infer的semantic_hz=25吧,但感觉是个潜在的坑
请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢?
请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢?
刚开始训,而且我这是有改动接了别的semantic token的。 按作者写的应该是在2k小时上训了100epoch吧,单机8卡 bs32
请问你使用了多长时间的音频训练哈。能否上传一个演示音频呢?
刚开始训,而且我这是有改动接了别的semantic token的。 按作者写的应该是在2k小时上训了100epoch吧,单机8卡 bs32
方便说一下 改动的那块具体是什么吗
25hz没影响,50hz是否有坑我要排查一下。
@Jiang-Stan 您好 请问更换semantic token部分有对最终效果有提升吗?