CosyVoice 流式推理存在音色变化问题

在流式推理的过程中，发现这样的badcase：

合成语音中从第二句话开始音色发生了变化，似乎非流式没有遇到这个问题。

请问有没有遇到过类似的问题？大概的原因和出现概率是咋样的？

Apr 23 '25 07:04 Zth9730

你是什么推理方式？ zeroshot 还是 sft？

Apr 23 '25 08:04 binlin1209

zeroshot 感谢回复

Apr 23 '25 08:04 Zth9730

老版本的流式推理逻辑，用于直接合成（无prompt）容易出现不同chunk之间音色跳变， zeroshot合成（带prompt），就不容易出现chunk之间音色跳变。
新版本的流式推理代码里，从第二个chunk起， prompt feat 和 prompt token，都是置零了。也就是从第二个chunk起都相当于直接合成了，无音色参考条件。所以可能会出现音色跳变。我想可能这里取消 prompt，跟合成稳定性有关。老版本的流式推理， chunk衔接处总是容易出现各种问题，爆音，谱列，重复堆叠音。但是新版的推理逻辑暂时没有测到。
另外流式推理还有可能造成各个chunk之间音量不一致，最后听起怪怪的，不知道你们碰到没有？

Apr 23 '25 12:04 JohnHerry

可以用之前版本的hift模型看看，不要用最新的

May 14 '25 04:05 GT-TOP

音色变化，跟音量变化，好像主要是在flow模型的问题，跟声码器关系不大。这些问题主要出在梅尔谱上。

May 14 '25 05:05 JohnHerry

音色变化，跟音量变化，好像主要是在flow模型的问题，跟声码器关系不大。这些问题主要出在梅尔谱上。

ok, 我之前遇到的问题是：流式推理，除了开始几个字，后续合成的内容都带点毛刺，滋滋的声音。换成旧的hift缓解了

May 14 '25 08:05 GT-TOP