GPT-SoVITS
GPT-SoVITS copied to clipboard
吞整句文字
欢迎来到小米公司,我是雷军。今天分享创业与工作,工作是手段创业是目的。工作是为了不工作而创业是为了继续创业。
产生音频
最后部分 “工作是为了不工作而创业是为了继续创业。”被吞
选择的是每4句拆分,看了下整句应该没有拆分
感觉是不是单句超10s的时候就会被吞?
https://cloudreve.2000gallery.art/f/pLoUL/audio%20%281%29.wav 我这里测试没有问题也是按四句切分
@bei123 和微调以及参考音频导致的语速有关,你的这个8s就全部说完了
@jax-explorer https://cloudreve.2000gallery.art/f/1Qvu7/audio%20%283%29.wav 那我换个模型,又换了个长参考音频,输出结果也是十秒以上,你还是检查一下自己模型训练的问题吧
ok, 我再试试,也是不稳定会复现
@bei123 看了下 只有训出来的某个模型会有这个问题,应该是微调GPT的过程中训练数据有某些问题,导致用训练好的GPT模型就会吞句子,用GPT底模就不会有