【音质问题】合成音频时,音频的开始总会有滴的一声
我遇到了相同的问题,音频开头部分很大概率会出现一个冲击噪音
我发现之前的sft-50Hz的模型生成的音频开头没问题,但25Hz模型使用“中文女”生成的音频开头有问题。那可能是预设的“中文女”在25Hz模型上表现不行。 sft_中文女_25Hz.wav.zip sft_中文女_50Hz.wav.zip
下面是合成音频的分段文本,25Hz模型合成的,在每行文字前都会有滴的一下。
哇!那真是个好消息!你们的团队合作一定很棒,就像我们在汪汪队一起完成任务一样、 你为班级争得了荣誉,真是好样的!接下来,我们可以把这份团队精神用在环保任务上,一起保护我们的地球、 绿色代表走!我们可以一起想出更多有趣的环保小妙招哦! 别丢掉,再利用!太棒了,你们的努力真是值得赞扬!
用cosyvoice-25hz-sft来使用预训练音色
用cosyvoice-25hz-sft来使用预训练音色
@aluminumbox ,我看只有cosyvoice-25hz模型,你说的sft是把cosyvoice-50hz里的音色权重复制过来吗,我目前就是用的这个方法
我遇到了同样问题,50HZ的预训练音色也同样存在开头有个“滴”的噪声。
你好,这个问题解决了吗,我也遇到了合成音频开头回头滴的声音,而且克隆出来的声音跟原声音相比音量小很多
同样的问题,求解决方法。我这是所有模型都有开头滴的声音而且是每个分段开头都有
用cosyvoice-25hz-sft来使用预训练音色
CosyVoice1模型开头位置经常有“滴”的一声杂音,CosyVoice2模型的杂音比例明显降低了,请问是做了什么优化呢?和flow的模型结构有关系吗?
是flow模型的原因,可以用干净的数据微调一下flow,即可解决。
碰到一样的问题,不会微调,请问怎么办
用cosyvoice-25hz-sft来使用预训练音色
哪里可以下载这个模型?
碰到一样的问题,不会微调,请问怎么办
用cosyvoice2模型这种问题就很少了
用cosyvoice-25hz-sft来使用预训练音色
哪里可以下载这个模型?
模型下载首页有,-sft指的是用sft的方式推理
用cosyvoice-25hz-sft来使用预训练音色
哪里可以下载这个模型?
模型下载首页有,-sft指的是用sft的方式推理
把spk2info.pt放到300M-25Hz模型下吗,试了会报错
合成音频时,文本分段后,每段的音频开始均会有滴的一声,听起来很奇怪,如下图,在切分后的每段文本开始前,总会有个明显的滴的一声噪音
我用的cosyvoice2-0.5B的模型也有这个问题,观察到音频开始时会有几十毫秒的杂音,不知是否时qihua大佬的vllm版本问题,求解决。