GPT-SoVITS
GPT-SoVITS copied to clipboard
修复有时候会出现长段无意义音频的bug
生产中发现一些模型可能会因为素材或者参考音频的原因,时不时推理出大段的无意义音频,排查发现是在AR的decode阶段有点问题,进行了优化,降低了一直推出同一个token的情况。对于一些恶意token(蹩脚的叫法),上一个修改依旧不能修复,会出现a,a,a,a,b,b,a,a,a,a这种情况,直接干掉。测试下来也没什么不妥,质量也没下降,稳定性肉眼可见的提升。人机交互产品出现那种大段的噪音真的不能接受,不是说抽卡就行的。
不错的建议,抽空测试下!
能否提供一些比较稳定能复现同一个token反复的case?
大量报错,还需修改
能否提供一些比较稳定能复现同一个token反复的case?
I'm all ears.
Hmm, "拉布布" sounds a bit mysterious!
大量报错,还需修改
修复了一下