流式推理存在音色变化问题
在流式推理的过程中,发现这样的badcase:
- 合成语音中从第二句话开始音色发生了变化,似乎非流式没有遇到这个问题。
请问有没有遇到过类似的问题?大概的原因和出现概率是咋样的?
你是什么推理方式? zeroshot 还是 sft?
zeroshot 感谢回复
老版本的流式推理逻辑,用于直接合成(无prompt)容易出现不同chunk之间音色跳变, zeroshot合成(带prompt),就不容易出现chunk之间音色跳变。
新版本的流式推理代码里,从第二个chunk起, prompt feat 和 prompt token,都是置零了。 也就是从第二个chunk起都相当于直接合成了,无音色参考条件。所以可能会出现音色跳变。 我想可能这里取消 prompt,跟合成稳定性有关。 老版本的流式推理, chunk衔接处总是容易出现各种问题,爆音,谱列,重复堆叠音。 但是新版的推理逻辑暂时没有测到。
另外流式推理还有可能造成各个chunk之间音量不一致,最后听起怪怪的,不知道你们碰到没有?
可以用之前版本的hift模型看看,不要用最新的
音色变化,跟音量变化,好像主要是在flow模型的问题,跟声码器关系不大。 这些问题主要出在梅尔谱上。
音色变化,跟音量变化,好像主要是在flow模型的问题,跟声码器关系不大。 这些问题主要出在梅尔谱上。
ok, 我之前遇到的问题是:流式推理,除了开始几个字,后续合成的内容都带点毛刺,滋滋的声音。 换成旧的hift缓解了