LiveTalking icon indicating copy to clipboard operation
LiveTalking copied to clipboard

感谢作者分享。请问 我集成bert-vits2语音服务后,每次新的声音驱动时,会发出“嗒”的一声,是什么原因

Open zhcngh opened this issue 1 year ago • 7 comments

我是直接拿gpt-sovits改的,直接加载一个bert-vits2音频地址,驱动出来的声音会有“嗒”声 (单独播放音频是没有“嗒”声的) 我在试是不是因为chunk_size的问题,但好像没有用。

请作者指点一下

zhcngh avatar Jul 18 '24 11:07 zhcngh

出来的音频要选raw格式,不要用wav格式。 另外采样率是32khz吗

lipku avatar Jul 18 '24 23:07 lipku

出来的音频要选raw格式,不要用wav格式。 另外采样率是32khz吗

lipku avatar Jul 18 '24 23:07 lipku

出来的音频要选raw格式,不要用wav格式。 另外采样率是32khz吗

感谢回复, 出来的是wav+24khz,不是raw+32khz。 我在ttsreal.py代码里修改了采样率,音色是对的,这个嗒声是因为不是raw格式的问题吗?咱代码里有办法优化吗? image

zhcngh avatar Jul 19 '24 04:07 zhcngh

要去掉wav头 44byte

lipku avatar Jul 19 '24 06:07 lipku

要去掉wav头 44byte 感谢, 我这么去掉后,开头没嗒声了, 但内部会有几次小声的噪音, 是我去的不对吗?

image

zhcngh avatar Jul 19 '24 15:07 zhcngh

只有第一个chunk要去掉

lipku avatar Jul 21 '24 06:07 lipku

请问一下44byte是如何计算出来的,我这边输出的音频是32khz,音频开头也存在一声“嗒”

sky-bird233 avatar Jul 23 '24 08:07 sky-bird233