CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

创空间的CosyVoice3很好用,但是开源的webui效果很差

Open 1044690543 opened this issue 2 weeks ago • 2 comments

创空间:https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B 为啥创空间的效果很好,本地部署的会乱讲话,有空白呢

1044690543 avatar Dec 26 '25 09:12 1044690543

直接看代码呗,看了一些 issue,有可能是 prompt text 格式错误,比如缺少'You are a helpful assistant.<|endofprompt|>'

    if mode_checkbox_group == '3s极速复刻':
        logging.info('get zero_shot inference request')
        set_all_random_seed(seed)
        speech_list = []
        for i in cosyvoice.inference_zero_shot(tts_text, 'You are a helpful assistant.<|endofprompt|>' + prompt_text, postprocess(prompt_wav), stream=stream, speed=speed):
            speech_list.append(i['tts_speech'])
        return (target_sr, torch.concat(speech_list, dim=1).numpy().flatten())
    elif mode_checkbox_group == '自然语言控制':
        logging.info('get instruct inference request')
        set_all_random_seed(seed)
        speech_list = []
        for i in cosyvoice.inference_instruct2(tts_text, instruct_text, postprocess(prompt_wav), stream=stream, speed=speed):
            speech_list.append(i['tts_speech'])
        return (target_sr, torch.concat(speech_list, dim=1).numpy().flatten())

laishere avatar Dec 26 '25 15:12 laishere

直接跑example.py试试呢。如果没问题的话就对照代码调。

ptr2019 avatar Dec 26 '25 23:12 ptr2019

@abo123456789 是同一个,创空间用的是一样的,详细可见源码: https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B/file/view/master/app.py?status=1

from modelscope import snapshot_download, HubApi

# api = HubApi()
# _, cookies = api.login(access_token=os.environ['token'])
snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B')

我看了好几个 issue 都是没有用官方的 example.py,漏了 prompt 导致效果很差。另外一个因素是本地机器和依赖的问题,如果效果不好建议先用 cpu 运行而不是GPU。比如我在 macmini 上采用mps device,结果效果很差,因为其中一个算子不支持,后来发现官方的例子中,pytorch 版本比较低,升级到2.9.x后,mps 上的算子也满足要求了,质量和 cpu 的效果一样

laishere avatar Dec 29 '25 08:12 laishere

@abo123456789 是同一个,创空间用的是一样的,详细可见源码: https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B/file/view/master/app.py?status=1

from modelscope import snapshot_download, HubApi

api = HubApi()

_, cookies = api.login(access_token=os.environ['token'])

snapshot_download('FunAudioLLM/Fun-CosyVoice3-0.5B-2512', local_dir='pretrained_models/Fun-CosyVoice3-0.5B') 我看了好几个 issue 都是没有用官方的 example.py,漏了 prompt 导致效果很差。另外一个因素是本地机器和依赖的问题,如果效果不好建议先用 cpu 运行而不是GPU。比如我在 macmini 上采用mps device,结果效果很差,因为其中一个算子不支持,后来发现官方的例子中,pytorch 版本比较低,升级到2.9.x后,mps 上的算子也满足要求了,质量和 cpu 的效果一样

感谢!我用app.py源码跑,效果一样了

1044690543 avatar Dec 29 '25 09:12 1044690543