CosyVoice 【音质问题】合成音频时，音频的开始总会有滴的一声

合成音频时，文本分段后，每段的音频开始均会有滴的一声，听起来很奇怪，如下图，在切分后的每段文本开始前，总会有个明显的滴的一声噪音

Oct 11 '24 14:10 wang-TJ-20

我遇到了相同的问题，音频开头部分很大概率会出现一个冲击噪音

Oct 12 '24 03:10 zhangyike

我发现之前的sft-50Hz的模型生成的音频开头没问题，但25Hz模型使用“中文女”生成的音频开头有问题。那可能是预设的“中文女”在25Hz模型上表现不行。 sft_中文女_25Hz.wav.zip sft_中文女_50Hz.wav.zip

下面是合成音频的分段文本，25Hz模型合成的，在每行文字前都会有滴的一下。

哇!那真是个好消息!你们的团队合作一定很棒,就像我们在汪汪队一起完成任务一样、你为班级争得了荣誉,真是好样的!接下来,我们可以把这份团队精神用在环保任务上,一起保护我们的地球、绿色代表走!我们可以一起想出更多有趣的环保小妙招哦! 别丢掉,再利用!太棒了,你们的努力真是值得赞扬!

Oct 13 '24 08:10 wang-TJ-20

用cosyvoice-25hz-sft来使用预训练音色

Oct 16 '24 05:10 aluminumbox

用cosyvoice-25hz-sft来使用预训练音色

@aluminumbox ，我看只有cosyvoice-25hz模型，你说的sft是把cosyvoice-50hz里的音色权重复制过来吗，我目前就是用的这个方法

Oct 18 '24 10:10 wang-TJ-20

我遇到了同样问题，50HZ的预训练音色也同样存在开头有个“滴”的噪声。

Oct 21 '24 07:10 RoversCode

你好，这个问题解决了吗，我也遇到了合成音频开头回头滴的声音，而且克隆出来的声音跟原声音相比音量小很多

Nov 05 '24 06:11 CriDora

同样的问题，求解决方法。我这是所有模型都有开头滴的声音而且是每个分段开头都有

Nov 13 '24 02:11 lazyflying

用cosyvoice-25hz-sft来使用预训练音色

CosyVoice1模型开头位置经常有“滴”的一声杂音，CosyVoice2模型的杂音比例明显降低了，请问是做了什么优化呢？和flow的模型结构有关系吗？

Feb 05 '25 09:02 zhangyike

是flow模型的原因，可以用干净的数据微调一下flow，即可解决。

Feb 08 '25 05:02 RoversCode

碰到一样的问题，不会微调，请问怎么办

Mar 19 '25 07:03 KabourWu

用cosyvoice-25hz-sft来使用预训练音色

哪里可以下载这个模型？

Mar 19 '25 07:03 KabourWu

碰到一样的问题，不会微调，请问怎么办

用cosyvoice2模型这种问题就很少了

Mar 19 '25 07:03 wang-TJ-20

用cosyvoice-25hz-sft来使用预训练音色

哪里可以下载这个模型？

模型下载首页有，-sft指的是用sft的方式推理

Mar 19 '25 07:03 wang-TJ-20

用cosyvoice-25hz-sft来使用预训练音色

哪里可以下载这个模型？

模型下载首页有，-sft指的是用sft的方式推理

把spk2info.pt放到300M-25Hz模型下吗，试了会报错

Mar 19 '25 11:03 KabourWu

合成音频时，文本分段后，每段的音频开始均会有滴的一声，听起来很奇怪，如下图，在切分后的每段文本开始前，总会有个明显的滴的一声噪音

zero_shot_9222.wav.zip

我用的cosyvoice2-0.5B的模型也有这个问题，观察到音频开始时会有几十毫秒的杂音，不知是否时qihua大佬的vllm版本问题，求解决。

Jun 27 '25 01:06 vvsicdat