CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

生成速度太慢了有没有办法可以解决

Open theajack opened this issue 7 months ago • 13 comments

显卡是4070s 生成大概 22s的语音,cosyvoice2需要20s左右, GPTSovitsV4, 使用预训练模型,大概只需要5.5s左右,差距太明显了 不过效果是cosyvoice2好 这个有办法像 GPTSovitsV4 一样采用预训练模型的方式提高生成速度吗

theajack avatar Apr 26 '25 09:04 theajack

我也觉得奇慢无比

huangyang-daye avatar Apr 27 '25 05:04 huangyang-daye

它这个新的推理框架没做完造成的,开启TRT就必须开启流式。速度虽然上来了但流式对生成音频的音质有影响。我换了1月份老版本cosyvoice2的推理代码和1月份的模型,开启TRT,关闭流式,速度还还不错。2080ti 22GB 的rtf在 0.6-1.0之间。

lovewater avatar Apr 27 '25 11:04 lovewater

@lovewater 能分享包吗? 我想做下对比?

anton-liam avatar Apr 28 '25 06:04 anton-liam

我用的这个版本的代码:commit 08312f4c4615b465d66ff55036be1cbd642904e6

老版本的模型用的 from modelscope import snapshot_download snapshot_download('aiwantaozi/CosyVoice2-0.5B', local_dir='CosyVoice2-0.5B')

@lovewater 能分享包吗? 我想做下对比?

lovewater avatar Apr 28 '25 06:04 lovewater

@lovewater 我的是3080 开启trt后 load_trt=True fp16=True(不开会报错) 感觉也就快了一点点, rtf 1.6..... 是哪里姿势不对么?

anton-liam avatar Apr 28 '25 10:04 anton-liam

3080 10GB版本吗?那估计只有fp16了,我跑fp32时,开启trt需要14GB显存, @anton-liam

lovewater avatar Apr 28 '25 11:04 lovewater

我用改装版本。 内容: 刚才哥们喊我去喝酒撸串儿。我都拒绝了。我觉得我进步了。 rtf 0.089, cost 0.595s, all cost time 0.595s

genicsoft avatar May 01 '25 10:05 genicsoft

@genicsoft 哥们 这得来些细节呀....

anton-liam avatar May 01 '25 12:05 anton-liam

我用改装版本。 内容: 刚才哥们喊我去喝酒撸串儿。我都拒绝了。我觉得我进步了。 rtf 0.089, cost 0.595s, all cost time 0.595s

可以分享一下吗

HanRuoX avatar May 06 '25 08:05 HanRuoX

我用改装版本。 内容: 刚才哥们喊我去喝酒撸串儿。我都拒绝了。我觉得我进步了。 rtf 0.089, cost 0.595s, all cost time 0.595s

哥们可以分享一下吗

zxvgf avatar May 09 '25 09:05 zxvgf

@genicsoft 你这是来纯炫耀吧

anton-liam avatar May 10 '25 16:05 anton-liam

音频生成耗时: 16.962秒, RTF: 0.572 我这平均0.5 3070 你们怎么那么慢

sasuke39 avatar May 12 '25 16:05 sasuke39

音频生成耗时: 16.962秒, RTF: 0.572 我这平均0.5 3070 你们怎么那么慢 你好,请问可以分享一下你用的哪个版本代码?我这儿也是特别慢,双CPU的4090还跑不过单CPU的3090

zhd5120153951 avatar Nov 11 '25 01:11 zhd5120153951