GPT-SoVITS 在特定情况下t2s_model产生bad zero prediction导致输入序列被错误地作为输出处理，引起参考音频泄露

在特定情况下t2s_model产生bad zero prediction导致输入序列被错误地作为输出处理，引起参考音频泄露

Open zliu-aki opened this issue 1 year ago • 3 comments

在某些特定的参考音频和prompt text的组合下，t2s_model会输出bad zero prediction情况，并返回idx=0。这会导致inference_webui.py的第211-213行的


        pred_semantic = pred_semantic[:, -idx:].unsqueeze(
            0
        )  # .unsqueeze(0)#mq要多unsqueeze一次

处的pred_semantic[:, -0:]错误地将输入序列包含在输出中。这里是否应该做一个错误检查？

Jan 18 '24 03:01 zliu-aki

确实，下次我写个bad zero prediction多预测几次，上限3次就返回空音频吧

Jan 18 '24 03:01 RVC-Boss

bad zero prediction是怎么出错的？如何避免？

Jan 20 '24 04:01 meogoo

bad zero prediction是怎么出错的？如何避免？

GPT模型在自回归生成的时候第一个就得到了EOS的结果（也就是说，它什么都没有输出就选择结束了）目前的解决方法应该就是多刷几次/换参考音频完美解决估计得等更好的GPT模型？

Jan 20 '24 04:01 zliu-aki

已解决。

Jan 22 '24 15:01 RVC-Boss