GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

吞整句文字

Open jax-explorer opened this issue 11 months ago • 5 comments

欢迎来到小米公司,我是雷军。今天分享创业与工作,工作是手段创业是目的。工作是为了不工作而创业是为了继续创业。

产生音频

最后部分 “工作是为了不工作而创业是为了继续创业。”被吞

选择的是每4句拆分,看了下整句应该没有拆分

感觉是不是单句超10s的时候就会被吞?

jax-explorer avatar Feb 28 '24 09:02 jax-explorer

https://cloudreve.2000gallery.art/f/pLoUL/audio%20%281%29.wav 我这里测试没有问题也是按四句切分

bei123 avatar Feb 28 '24 10:02 bei123

@bei123 和微调以及参考音频导致的语速有关,你的这个8s就全部说完了

jax-explorer avatar Feb 28 '24 10:02 jax-explorer

@jax-explorer https://cloudreve.2000gallery.art/f/1Qvu7/audio%20%283%29.wav 那我换个模型,又换了个长参考音频,输出结果也是十秒以上,你还是检查一下自己模型训练的问题吧

bei123 avatar Feb 28 '24 10:02 bei123

ok, 我再试试,也是不稳定会复现

jax-explorer avatar Feb 28 '24 10:02 jax-explorer

@bei123 看了下 只有训出来的某个模型会有这个问题,应该是微调GPT的过程中训练数据有某些问题,导致用训练好的GPT模型就会吞句子,用GPT底模就不会有

jax-explorer avatar Feb 28 '24 13:02 jax-explorer