LiveTalking icon indicating copy to clipboard operation
LiveTalking copied to clipboard

musetalk模型用gpt-sovits 音频播放出来有滋滋的声音

Open sj123sheng opened this issue 1 year ago • 3 comments

musetalk模型用gpt-sovits时图像正常推送,音频播放出来是滋滋的声音,gpt-sovits是用的流式ogg格式返回, 返回的全是滋滋的声音,后来改成非流式返回wav格式的 声音能出来 但是有点卡顿和声音不是很清楚 image 顺便说下最近的gpt-sovits的api服务请求地址和入参有调整: image image @lipku

sj123sheng avatar Jul 24 '24 03:07 sj123sheng

gpt-sovits使用全精度开启服务 musetalk的音色好很多也清楚很多 跟这段将字节流转换为浮点数流有关系吗 看用的全精度浮点数来转换的 我这边gpt-sovits使用半精度这边也改成半精度音色效果也好很多 image image

sj123sheng avatar Jul 26 '24 08:07 sj123sheng

用raw格式返回

lipku avatar Jul 26 '24 11:07 lipku

gpt-sovits好像不支持raw格式返回的,需要自己去修改gpt-sovits代码支持raw格式返回吗 我尝试了下raw的流式返回是可以的 但是感觉音质还是没有sovits直接返回的好

sj123sheng avatar Jul 29 '24 02:07 sj123sheng