CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

流式推理存在音色变化问题

Open Zth9730 opened this issue 8 months ago • 6 comments

在流式推理的过程中,发现这样的badcase:

  • 合成语音中从第二句话开始音色发生了变化,似乎非流式没有遇到这个问题。

请问有没有遇到过类似的问题?大概的原因和出现概率是咋样的?

Zth9730 avatar Apr 23 '25 07:04 Zth9730

你是什么推理方式? zeroshot 还是 sft?

binlin1209 avatar Apr 23 '25 08:04 binlin1209

zeroshot 感谢回复

Zth9730 avatar Apr 23 '25 08:04 Zth9730

老版本的流式推理逻辑,用于直接合成(无prompt)容易出现不同chunk之间音色跳变, zeroshot合成(带prompt),就不容易出现chunk之间音色跳变。
新版本的流式推理代码里,从第二个chunk起, prompt feat 和 prompt token,都是置零了。 也就是从第二个chunk起都相当于直接合成了,无音色参考条件。所以可能会出现音色跳变。 我想可能这里取消 prompt,跟合成稳定性有关。 老版本的流式推理, chunk衔接处总是容易出现各种问题,爆音,谱列,重复堆叠音。 但是新版的推理逻辑暂时没有测到。
另外流式推理还有可能造成各个chunk之间音量不一致,最后听起怪怪的,不知道你们碰到没有?

JohnHerry avatar Apr 23 '25 12:04 JohnHerry

可以用之前版本的hift模型看看,不要用最新的

GT-TOP avatar May 14 '25 04:05 GT-TOP

音色变化,跟音量变化,好像主要是在flow模型的问题,跟声码器关系不大。 这些问题主要出在梅尔谱上。

JohnHerry avatar May 14 '25 05:05 JohnHerry

音色变化,跟音量变化,好像主要是在flow模型的问题,跟声码器关系不大。 这些问题主要出在梅尔谱上。

ok, 我之前遇到的问题是:流式推理,除了开始几个字,后续合成的内容都带点毛刺,滋滋的声音。 换成旧的hift缓解了

GT-TOP avatar May 14 '25 08:05 GT-TOP