GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

修复有时候会出现长段无意义音频的bug

Open jsntcheng opened this issue 1 month ago • 5 comments

生产中发现一些模型可能会因为素材或者参考音频的原因,时不时推理出大段的无意义音频,排查发现是在AR的decode阶段有点问题,进行了优化,降低了一直推出同一个token的情况。对于一些恶意token(蹩脚的叫法),上一个修改依旧不能修复,会出现a,a,a,a,b,b,a,a,a,a这种情况,直接干掉。测试下来也没什么不妥,质量也没下降,稳定性肉眼可见的提升。人机交互产品出现那种大段的噪音真的不能接受,不是说抽卡就行的。

jsntcheng avatar Oct 28 '25 08:10 jsntcheng

不错的建议,抽空测试下!

RVC-Boss avatar Nov 02 '25 14:11 RVC-Boss

能否提供一些比较稳定能复现同一个token反复的case?

RVC-Boss avatar Nov 02 '25 17:11 RVC-Boss

大量报错,还需修改

XXXXRT666 avatar Nov 02 '25 19:11 XXXXRT666

能否提供一些比较稳定能复现同一个token反复的case?

I'm all ears.

Hmm, "拉布布" sounds a bit mysterious!

jsntcheng avatar Nov 03 '25 04:11 jsntcheng

大量报错,还需修改

修复了一下

jsntcheng avatar Nov 03 '25 07:11 jsntcheng