GPT-SoVITS 修复有时候会出现长段无意义音频的bug

修复有时候会出现长段无意义音频的bug

Open jsntcheng opened this issue 1 month ago • 5 comments

生产中发现一些模型可能会因为素材或者参考音频的原因，时不时推理出大段的无意义音频，排查发现是在AR的decode阶段有点问题，进行了优化，降低了一直推出同一个token的情况。对于一些恶意token(蹩脚的叫法)，上一个修改依旧不能修复，会出现a,a,a,a,b,b,a,a,a,a这种情况，直接干掉。测试下来也没什么不妥，质量也没下降，稳定性肉眼可见的提升。人机交互产品出现那种大段的噪音真的不能接受，不是说抽卡就行的。

Oct 28 '25 08:10 jsntcheng

不错的建议，抽空测试下！

Nov 02 '25 14:11 RVC-Boss

能否提供一些比较稳定能复现同一个token反复的case？

Nov 02 '25 17:11 RVC-Boss

大量报错,还需修改

Nov 02 '25 19:11 XXXXRT666

能否提供一些比较稳定能复现同一个token反复的case？

I'm all ears.

Hmm, "拉布布" sounds a bit mysterious!

Nov 03 '25 04:11 jsntcheng

大量报错,还需修改

修复了一下

Nov 03 '25 07:11 jsntcheng

GPT-SoVITS GPT-SoVITS copied to clipboard

修复有时候会出现长段无意义音频的bug

GPT-SoVITS
GPT-SoVITS copied to clipboard