CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

长文本推理推理爆破音,单词读不准

Open MinzhiHuang opened this issue 8 months ago • 6 comments

使用的模型是CosyVoice2-0.5B, 我是先把文本按句号分隔成了多个句子。每个句子使用零样本克隆方式合成语音,再保存单个WAV文件并记录到列表中 最后合并在一起。

推理代码: try: for j, result in enumerate(cosyvoice.inference_zero_shot( sentence, original_text, prompt_speech_16k, stream=False)): # 保存音频 output_path = f'output/句子_{i+1}.wav' torchaudio.save(output_path, result['tts_speech'], cosyvoice.sample_rate) audio_segments.append(result['tts_speech']) break # 只取第一个结果 except Exception as e: print(f"处理句子 {i+1} 时出错: {e}") # 出错继续处理下一句

但现在最后生成的合并语音中,句子跟句子之间会出现短暂的爆破(啧,或者是刺啦一声)。并且读个ET什么会都成AT什么,但是这个单词前后的两三个英文单词都没有问题。

请问有人解决过这个句子跟句子间合并音频以后短暂爆破音跟这个英文简写单词阅读不准的问题吗? 谢谢!(注: 有下载过单句子的推测听过,是单句子中就有爆破音)

MinzhiHuang avatar Apr 21 '25 23:04 MinzhiHuang

看到一个帖子说换成中文,英文单词换成了中文单词,但是读的时候也不对,三个字分隔开了,第一个字跟后面两个字间隔特别长

Image

MinzhiHuang avatar Apr 21 '25 23:04 MinzhiHuang

大家的音频末尾没有杂音吗...

MinzhiHuang avatar Apr 25 '25 16:04 MinzhiHuang

大家的音频末尾没有杂音吗...

发一个音频看看

WangGewu avatar Apr 28 '25 06:04 WangGewu

大家的音频末尾没有杂音吗...

发一个音频看看

这里 sample

很多句子的末尾都会有

MinzhiHuang avatar Apr 28 '25 21:04 MinzhiHuang

有的还会出现尾部逐渐响亮的噪音,不知道是不是训练的数据不干净

foxmale007 avatar Apr 29 '25 03:04 foxmale007

+1,末尾噪音

LuffyGT avatar May 21 '25 08:05 LuffyGT

+1,末尾噪音 或 无声

scroot avatar Jun 26 '25 08:06 scroot