Matues320
Matues320
我也有同样问题,声音克隆的不行,杂音较大,嘴唇驱动的还不错。 不过视频生成是真心快,我是5060ti跑的,15S视频大约30S左右,比以前手动部署latentSync快很多,还不怎么太费显存
> 我4070一样的问题 跑的也是最新的那个5090的配置文件 你跑非50系配置文件试试,有没有杂音
> [@Matues320](https://github.com/Matues320) 非50没杂音 但是声音像是嗓子哑了那种感觉 我直接用F5-tts去克隆声音,再丢到heygem里面去合成视频比较好,就是麻烦,他们用的可能是fish-speech,没优化好,不知道他们唇形驱动用的哪一家的,不然可以自己组合了
> [@Matues320](https://github.com/Matues320) 唇形估计是硅基自己家的 他家就是做数字人的 F5-tts效果还是非常不错的,你的heygem也是在coze里调用的吗,直接全套在coze搓工作流是吧
@IDreamed 可以尝试本地F5-TTS + heygem, 不花钱,效果不错,我准备再单独测试一下fish-speech,我觉得硅基没有优化好,应该效果不会是这个样子,我现在也沙哑嗓子,没有点杂音了。
其实进入到容器内部可以手动安装的,只是我去容器里面看了,是最精简版,没有安装pip和pip3,你需要手动先安装pip,命令如下: apt update && apt install -y python3 python3-pip 再安装 pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/test/cu128 升级成功 不过现在已经出了50系列适配版了,不用那么麻烦了