LiveTalking icon indicating copy to clipboard operation
LiveTalking copied to clipboard

大佬们,我采用gpt-vits测试的速度比edgetts要慢很多,人物都无法连续说话了

Open ThornbirdZhang opened this issue 1 year ago • 3 comments

各位大佬 我把gpt-vits和metahuman-stream放在同一个rtx 3090的机器上,占用显存20GB左右,还不错。但是gpt-vits的耗时是edgetts的3-4倍,结果一句话说完,人物都要等下一句tts完成才能继续。 我单独测试gpt-vits,nvidia-smi显示10-12%的使用率,3-4GB的显存,速度和同时运行metahuman,速度没有明显差别,应该不是资源冲突。 大家使用gpt-vits定制声音时候,碰到它的速度问题吗?有什么办法可以提升到edgetts的水平吗?或者得换成什么卡?非常感谢。

ThornbirdZhang avatar Sep 18 '24 07:09 ThornbirdZhang

目前没有遇到,响应时长基本在1-2秒以内。是不是gpt-sovits在cpu上运行了?另外是否遇到在用gpt-sovits时,人物说话有一顿一顿的杂音?在gpt-sovits上或者直接接口调用都没有这种情况。

Proletariat-wh avatar Sep 18 '24 09:09 Proletariat-wh

我已经把gpt-sovits放在另一个单卡3090上运行了,但是推理速度还是不快,对于5秒的输出音频,要4-5秒。而推理时,top load才2.5, 而nvidia-smi gpu 10-12%,VRAM占用2.5GB左右。 推理出来的音频时连续。但是因为我的推理速度太慢,前一句已经播完了,后一句还没有跟上,这时候数字人就静默了,说一句停顿一会。有没有好的gpt-vits镜像?

ThornbirdZhang avatar Sep 19 '24 09:09 ThornbirdZhang

换成gpt-sovits v2的镜像https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official,输出16秒的音频,需要8.49秒,还是很长。edgetts只要3.67秒,有办法提高吗?

ThornbirdZhang avatar Sep 22 '24 06:09 ThornbirdZhang

问题已经解决,从CPU E5-2697 v3 @ 2.60GHz移到12th Gen Intel(R) Core(TM) i7-12700就好了,26秒音频只需要1.6秒,效果很棒!估计预处理等还是对于cpu有要求的。

ThornbirdZhang avatar Oct 11 '24 04:10 ThornbirdZhang

你最后用的v2还是v3

问题已经解决,从CPU E5-2697 v3 @ 2.60GHz移到12th Gen Intel(R) Core(TM) i7-12700就好了,26秒音频只需要1.6秒,效果很棒!估计预处理等还是对于cpu有要求的。

ajiader avatar Mar 05 '25 02:03 ajiader

看来CPU性能也要强啊, 不少地方要用到它

hm365x avatar May 23 '25 03:05 hm365x