chenkai89

Results 16 comments of chenkai89

可以用静音进行推理,就会得到闭嘴的

通过静音音频推理得到闭嘴的视频,再用闭嘴的视频生成数字人头像信息,再使用这个数据进行实时推理

我是用了wav2lip256模型进行推理的,首先确定你的素材多长,假设你的素材11秒,你就使用ffmpeg 生成11秒的静音音频,通过静音音频和素材进行推理,wav2lip256自带了推理功能,当然我认为其他版本的wav2lip都是存在推理功能的,这样就得到闭嘴的视频,再用这个闭嘴的视频构建数字人。当然效果肯定不能和源视频相比的。如果精确一点,那就把视频分成多段,只推理讲话那部分,再把视频合并,这样效果会更好些

是不是可以写2个api_v2.py 指定不同的端口和模型,同时运行,这样能达到相同的效果。 也可以启动2个GPT-Sovits项目,一个V4版本,一个V2版本,v4负责主播,v2负责助播

text_lang.lower() 这里 在这个代码前增加判断,存在则执行text_lang.lower()

没有仔细查看代码,但是你可以跳过 load_audio 这个方法,在slice_audio 这个代码中,在循环里调用 load_audio方法,你可以在调用前增加是否文件的判断,如果是文件继续执行

@GanziPo 我是在外面使用队列处理的,效果还可以

@yangyuke001 GPT-SoVITS-v4-20250422fix 这个版本,忘记在哪下载的,我感觉生成的声音可以,就是速度有点慢,4060TI 生成达不到1比1

@Suhuan-zhen v2 速度比v4要快一点,v4效果比v2好一点。v3运行不起来