GPT-SoVITS
GPT-SoVITS copied to clipboard
MRTE的方案问题
我看Mega-TTS2中提的MRTE是文本作Q,音频作KV,但在SoVITS的实现中是音频作Q,文本作KV,然后结果再加上音频的Embedding和global embedding,请问这里是有做过对比试验效果更好吗?
对比过去掉MRTE,有MRTE咬字更好。