Open-LLM-VTuber icon indicating copy to clipboard operation
Open-LLM-VTuber copied to clipboard

GPT-SoVITS Error preparing audio payload: Audio is empty or all zero.

Open mechanicheart opened this issue 8 months ago • 4 comments

按照教程 https://www.bilibili.com/video/BV1tnPMeKEGx 部署后出现的问题,表现如下:

  1. 无法正常输出AI语音(默认的Edge TTS是没有问题的)
  2. 当对话中出现一些短促的语气词,例如“啊、诶、嗯”,语音可以正常工作,但长度适中的句子就不行。

配置:

  1. NVIDIA Driver 572.61 + CUDA 12.8 (NVIDIA GTX 1660 Ti)
  2. LLM模型:deepseek-llm
  3. 其它配置均与教程一致

OpenLLM 运行截图: Image

GPT-SoVITS 运行截图: Image

verbose log: debug.log

mechanicheart avatar Mar 31 '25 02:03 mechanicheart

补充一点:在 web-tool 下运行时,TTS 同样会报错: Failed to execute 'createBuffer' on 'BaseAudioContext': The number of frames provided (0) is less than or equal to the minimum bound (0).

部分运行截图如下: Image

Image

mechanicheart avatar Mar 31 '25 02:03 mechanicheart

大概率是你的 GPTSoVITS 的配置有误?你是否检查过是否能直接播放 cache/ 下的音频?

ylxmf2005 avatar Apr 05 '25 07:04 ylxmf2005

大概率是你的 GPTSoVITS 的配置有误?你是否检查过是否能直接播放 cache/ 下的音频?

不能,cache folder下生成的都是十分短的空音频,无法正常播放。 配置部分都是按照教程的指示去做的,后来又重新配置了一遍还是同样的问题,每次音频生成都是跑到1%-5%就直接停止了,像是因为超时或者其他什么原因而被“掐断”了一样。

mechanicheart avatar Apr 05 '25 09:04 mechanicheart

你可以试试用GPT-Sovits的webui进行音频生成测试,如果官方的webui没问题再进行反馈,这一步是为了检测你的模型配置有无问题,理论上只要webui能正常生成音频放到项目里是能用的

Stewitch avatar May 30 '25 02:05 Stewitch