CosyVoice CosyVoice2 16K采样生成出24K采样数据

分支是master. 模型是CosyVoice2-0.5B ---------------------sample_rate: 16000 INFO:root:synthesis text 测试一下语音合成接口,这是一段很长很长很长的录音，会持续很久很久很久会。 INFO:root:yield speech len 1.26, rtf 5.5134135579305985 AudioTools.tts output:20160 INFO: 127.0.0.1:62074 - "GET /api/v1/cosyvoice/tts?user_id=1 HTTP/1.1" 200 OK INFO:root:yield speech len 1.5, rtf 1.788683255513509 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 1.7960925102233887 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 1.746981938680013 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 1.7782659530639648 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 1.8478366533915203 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 1.8371818860371907 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 1.9595387776692708 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 2.054187456766764 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 1.3120385805765789 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 0.7412934303283691 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 0.7887905438741049 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 0.8405934969584147 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 0.8517319361368815 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 0.8101906776428223 AudioTools.tts output:24000 INFO:root:yield speech len 1.5, rtf 0.8199380238850912 AudioTools.tts output:24000 INFO:root:yield speech len 1.68, rtf 0.6173077083769299 AudioTools.tts output:26880

代码： prompt_speech_16k = load_wav(voice_path, 16000) cosyvoice = CosyVoice2( model_path, load_jit=False, load_trt=False, fp16=False, use_flow_cache=True )

for out in cosyvoice.inference_instruct2( tts_text=ttsReq.tts_text, instruct_text=ttsReq.tts_text, prompt_speech_16k=prompt_speech_16k, stream=True, ): raw = ( (out["tts_speech"].numpy()*32767).astype(np.int16).flatten() ) # 原始输出 [-1, 1] 之间的float32，需要转为 16 位 PCM print(f"AudioTools.tts output:{len(raw)}") yield raw.tobytes() 已经修改了cosyvoice2.yaml的采样率，但是生成的结果还是24K ，为什么？求解

Apr 17 '25 07:04 packyzhou

配置文件是根据模型来配置的，而不是模型按照配置文件来运作。模型就是生成24K的，改配置文件没有用。除非你用你的配置文件自己训练一套。

Apr 23 '25 03:04 JohnHerry

This issue is stale because it has been open for 30 days with no activity.

May 25 '25 02:05 github-actions[bot]