Minzhi Chloe Huang

Results 1 issues of Minzhi Chloe Huang

使用的模型是CosyVoice2-0.5B, 我是先把文本按句号分隔成了多个句子。每个句子使用零样本克隆方式合成语音,再保存单个WAV文件并记录到列表中 最后合并在一起。 推理代码: try: for j, result in enumerate(cosyvoice.inference_zero_shot( sentence, original_text, prompt_speech_16k, stream=False)): # 保存音频 output_path = f'output/句子_{i+1}.wav' torchaudio.save(output_path, result['tts_speech'], cosyvoice.sample_rate) audio_segments.append(result['tts_speech']) break # 只取第一个结果 except Exception as e:...