GPT-SoVITS
GPT-SoVITS copied to clipboard
在特定情况下t2s_model产生bad zero prediction导致输入序列被错误地作为输出处理,引起参考音频泄露
在某些特定的参考音频和prompt text的组合下,t2s_model会输出bad zero prediction情况,并返回idx=0。这会导致inference_webui.py的第211-213行的
pred_semantic = pred_semantic[:, -idx:].unsqueeze(
0
) # .unsqueeze(0)#mq要多unsqueeze一次
处的pred_semantic[:, -0:]错误地将输入序列包含在输出中。 这里是否应该做一个错误检查?
确实,下次我写个bad zero prediction多预测几次,上限3次就返回空音频吧
bad zero prediction是怎么出错的?如何避免?
bad zero prediction是怎么出错的?如何避免?
GPT模型在自回归生成的时候第一个就得到了EOS的结果(也就是说,它什么都没有输出就选择结束了) 目前的解决方法应该就是多刷几次/换参考音频 完美解决估计得等更好的GPT模型?
已解决。