GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

在特定情况下t2s_model产生bad zero prediction导致输入序列被错误地作为输出处理,引起参考音频泄露

Open zliu-aki opened this issue 1 year ago • 3 comments

在某些特定的参考音频和prompt text的组合下,t2s_model会输出bad zero prediction情况,并返回idx=0。这会导致inference_webui.py的第211-213行的


        pred_semantic = pred_semantic[:, -idx:].unsqueeze(
            0
        )  # .unsqueeze(0)#mq要多unsqueeze一次

处的pred_semantic[:, -0:]错误地将输入序列包含在输出中。 这里是否应该做一个错误检查?

zliu-aki avatar Jan 18 '24 03:01 zliu-aki

确实,下次我写个bad zero prediction多预测几次,上限3次就返回空音频吧

RVC-Boss avatar Jan 18 '24 03:01 RVC-Boss

bad zero prediction是怎么出错的?如何避免?

meogoo avatar Jan 20 '24 04:01 meogoo

bad zero prediction是怎么出错的?如何避免?

GPT模型在自回归生成的时候第一个就得到了EOS的结果(也就是说,它什么都没有输出就选择结束了) 目前的解决方法应该就是多刷几次/换参考音频 完美解决估计得等更好的GPT模型?

zliu-aki avatar Jan 20 '24 04:01 zliu-aki

已解决。

RVC-Boss avatar Jan 22 '24 15:01 RVC-Boss