GPT-SoVITS
GPT-SoVITS copied to clipboard
尝试加入说话人的特征
warning: This code should not be merged directly. 一份简单的尝试代码。当前底模的能力很强,我认为可以不通过训练整个GPT模型或者s2G模型来拟合新的声音特征,而是训练一个例如[64,1024]的说话人特征tensor来注入说话人风格。同时这个tensor应当可以替代prompt作为GPT的生成指向。 受制于设备的贫瘠,我简单尝试了加性耦合一个[embedding_dim]的特征向量到GPT的y_emb处(原谅我没能完全看懂代码变量意义,对tts的了解不是很多),然后单独训练speaker_proj和speaker_feat。训练100epoch后进行推理,发现对推理有一定改善。 我个人觉得这个思路可能有一定价值,所以做了个pr作为参考,看能不能做出改善。 PS:这个思路和so-vits比较像,但是我训练不了大模型,只能目测一下"拼接到prompt之前"可能会作为音色转换的思路。 这个代码属于实验代码,不应当被merge
如果觉得这个方法不好希望能够指正一下哪里想的有问题,非常感谢
@bwnotfound 我来问一些细节 1、说话人向量用的什么提取器 2、训练集每条都用一个说话人向量吗,还是整个训练集用同一个说话人向量,二者有做过对比吗 3、“对推理有一定改善”改善了哪些地方,对照组是什么?