chenkai89 comments

Results 16 comments of


                                            chenkai89

新需求：怎样使用全篇开口说话的视频来训练数字人？

通过静音音频推理得到闭嘴的视频，再用闭嘴的视频生成数字人头像信息，再使用这个数据进行实时推理

我是用了wav2lip256模型进行推理的，首先确定你的素材多长，假设你的素材11秒，你就使用ffmpeg 生成11秒的静音音频，通过静音音频和素材进行推理，wav2lip256自带了推理功能，当然我认为其他版本的wav2lip都是存在推理功能的，这样就得到闭嘴的视频，再用这个闭嘴的视频构建数字人。当然效果肯定不能和源视频相比的。如果精确一点，那就把视频分成多段，只推理讲话那部分，再把视频合并，这样效果会更好些

引用GPT-SoVITS的api动态切换模型

是不是可以写2个api_v2.py 指定不同的端口和模型，同时运行，这样能达到相同的效果。也可以启动2个GPT-Sovits项目，一个V4版本，一个V2版本，v4负责主播，v2负责助播

api_v2.py POST tts接口报错：Exception in ASGI application

text_lang.lower() 这里在这个代码前增加判断，存在则执行text_lang.lower()

关于音频加载失败

没有仔细查看代码，但是你可以跳过 load_audio 这个方法，在slice_audio 这个代码中，在循环里调用 load_audio方法，你可以在调用前增加是否文件的判断，如果是文件继续执行

关于音频加载失败

@zhixuan45

语音生成平均耗时1.6秒,如何提升响应速度

@GanziPo 我是在外面使用队列处理的，效果还可以

v4 推理速度问题

@yangyuke001 GPT-SoVITS-v4-20250422fix 这个版本，忘记在哪下载的，我感觉生成的声音可以，就是速度有点慢，4060TI 生成达不到1比1

v4 推理速度问题

@Suhuan-zhen v2 速度比v4要快一点，v4效果比v2好一点。v3运行不起来