CosyVoice 长文本推理推理爆破音，单词读不准

使用的模型是CosyVoice2-0.5B, 我是先把文本按句号分隔成了多个句子。每个句子使用零样本克隆方式合成语音，再保存单个WAV文件并记录到列表中最后合并在一起。

推理代码: try: for j, result in enumerate(cosyvoice.inference_zero_shot( sentence, original_text, prompt_speech_16k, stream=False)): # 保存音频 output_path = f'output/句子_{i+1}.wav' torchaudio.save(output_path, result['tts_speech'], cosyvoice.sample_rate) audio_segments.append(result['tts_speech']) break # 只取第一个结果 except Exception as e: print(f"处理句子 {i+1} 时出错: {e}") # 出错继续处理下一句

但现在最后生成的合并语音中，句子跟句子之间会出现短暂的爆破（啧，或者是刺啦一声)。并且读个ET什么会都成AT什么，但是这个单词前后的两三个英文单词都没有问题。

请问有人解决过这个句子跟句子间合并音频以后短暂爆破音跟这个英文简写单词阅读不准的问题吗? 谢谢！（注: 有下载过单句子的推测听过，是单句子中就有爆破音)