CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

【音质问题】合成音频时,音频的开始总会有滴的一声

Open wang-TJ-20 opened this issue 1 year ago • 2 comments

合成音频时,文本分段后,每段的音频开始均会有滴的一声,听起来很奇怪,如下图,在切分后的每段文本开始前,总会有个明显的滴的一声噪音 image

zero_shot_9222.wav.zip

wang-TJ-20 avatar Oct 11 '24 14:10 wang-TJ-20

我遇到了相同的问题,音频开头部分很大概率会出现一个冲击噪音

zhangyike avatar Oct 12 '24 03:10 zhangyike

我发现之前的sft-50Hz的模型生成的音频开头没问题,但25Hz模型使用“中文女”生成的音频开头有问题。那可能是预设的“中文女”在25Hz模型上表现不行。 sft_中文女_25Hz.wav.zip sft_中文女_50Hz.wav.zip

下面是合成音频的分段文本,25Hz模型合成的,在每行文字前都会有滴的一下。

哇!那真是个好消息!你们的团队合作一定很棒,就像我们在汪汪队一起完成任务一样、 你为班级争得了荣誉,真是好样的!接下来,我们可以把这份团队精神用在环保任务上,一起保护我们的地球、 绿色代表走!我们可以一起想出更多有趣的环保小妙招哦! 别丢掉,再利用!太棒了,你们的努力真是值得赞扬!

wang-TJ-20 avatar Oct 13 '24 08:10 wang-TJ-20

用cosyvoice-25hz-sft来使用预训练音色

aluminumbox avatar Oct 16 '24 05:10 aluminumbox

用cosyvoice-25hz-sft来使用预训练音色

@aluminumbox ,我看只有cosyvoice-25hz模型,你说的sft是把cosyvoice-50hz里的音色权重复制过来吗,我目前就是用的这个方法

wang-TJ-20 avatar Oct 18 '24 10:10 wang-TJ-20

我遇到了同样问题,50HZ的预训练音色也同样存在开头有个“滴”的噪声。

RoversCode avatar Oct 21 '24 07:10 RoversCode

你好,这个问题解决了吗,我也遇到了合成音频开头回头滴的声音,而且克隆出来的声音跟原声音相比音量小很多

CriDora avatar Nov 05 '24 06:11 CriDora

同样的问题,求解决方法。我这是所有模型都有开头滴的声音而且是每个分段开头都有

lazyflying avatar Nov 13 '24 02:11 lazyflying

用cosyvoice-25hz-sft来使用预训练音色

CosyVoice1模型开头位置经常有“滴”的一声杂音,CosyVoice2模型的杂音比例明显降低了,请问是做了什么优化呢?和flow的模型结构有关系吗?

zhangyike avatar Feb 05 '25 09:02 zhangyike

是flow模型的原因,可以用干净的数据微调一下flow,即可解决。

RoversCode avatar Feb 08 '25 05:02 RoversCode

碰到一样的问题,不会微调,请问怎么办

KabourWu avatar Mar 19 '25 07:03 KabourWu

用cosyvoice-25hz-sft来使用预训练音色

哪里可以下载这个模型?

KabourWu avatar Mar 19 '25 07:03 KabourWu

碰到一样的问题,不会微调,请问怎么办

用cosyvoice2模型这种问题就很少了

wang-TJ-20 avatar Mar 19 '25 07:03 wang-TJ-20

用cosyvoice-25hz-sft来使用预训练音色

哪里可以下载这个模型?

模型下载首页有,-sft指的是用sft的方式推理

Image

wang-TJ-20 avatar Mar 19 '25 07:03 wang-TJ-20

用cosyvoice-25hz-sft来使用预训练音色

哪里可以下载这个模型?

模型下载首页有,-sft指的是用sft的方式推理

Image

把spk2info.pt放到300M-25Hz模型下吗,试了会报错

KabourWu avatar Mar 19 '25 11:03 KabourWu

合成音频时,文本分段后,每段的音频开始均会有滴的一声,听起来很奇怪,如下图,在切分后的每段文本开始前,总会有个明显的滴的一声噪音 image

zero_shot_9222.wav.zip

我用的cosyvoice2-0.5B的模型也有这个问题,观察到音频开始时会有几十毫秒的杂音,不知是否时qihua大佬的vllm版本问题,求解决。

vvsicdat avatar Jun 27 '25 01:06 vvsicdat