Duix.Heygem icon indicating copy to clipboard operation
Duix.Heygem copied to clipboard

50系列显卡跑最新适配的版本,声音驱动克隆下来的声音有类似电音的杂音

Open bogewl opened this issue 7 months ago • 17 comments

50系列显卡跑最新适配的版本,声音驱动克隆下来的声音有类似电音的杂音

bogewl avatar May 04 '25 04:05 bogewl

你好,请问可以5070ti跑了吗,不是说pytorch那些跟不上吗

YangYa666 avatar May 05 '25 10:05 YangYa666

你好,请问可以5070ti跑了吗,不是说pytorch那些跟不上吗

官方更新50系列显卡教程了,看下Readme_zh.md

Mrten1989 avatar May 06 '25 09:05 Mrten1989

我也有同样问题,声音克隆的不行,杂音较大,嘴唇驱动的还不错。 不过视频生成是真心快,我是5060ti跑的,15S视频大约30S左右,比以前手动部署latentSync快很多,还不怎么太费显存

Matues320 avatar May 08 '25 05:05 Matues320

我4070一样的问题 跑的也是最新的那个5090的配置文件

IDreamed avatar May 09 '25 09:05 IDreamed

我4070一样的问题 跑的也是最新的那个5090的配置文件

你跑非50系配置文件试试,有没有杂音

Matues320 avatar May 12 '25 03:05 Matues320

@Matues320 非50没杂音 但是声音像是嗓子哑了那种感觉

IDreamed avatar May 12 '25 07:05 IDreamed

@Matues320 非50没杂音 但是声音像是嗓子哑了那种感觉

我直接用F5-tts去克隆声音,再丢到heygem里面去合成视频比较好,就是麻烦,他们用的可能是fish-speech,没优化好,不知道他们唇形驱动用的哪一家的,不然可以自己组合了

Matues320 avatar May 12 '25 07:05 Matues320

@Matues320 老哥 F5-tts效果怎么样 我直接用的coze调用豆包的语音接口 效果挺不错的 就是玩起来免费额度就不够用了

IDreamed avatar May 12 '25 08:05 IDreamed

@Matues320 唇形估计是硅基自己家的 他家就是做数字人的

IDreamed avatar May 12 '25 08:05 IDreamed

@Matues320 唇形估计是硅基自己家的 他家就是做数字人的

F5-tts效果还是非常不错的,你的heygem也是在coze里调用的吗,直接全套在coze搓工作流是吧

Matues320 avatar May 12 '25 08:05 Matues320

@Matues320 heygem在本地跑的 毕竟我有显卡 不想花那个冤枉钱 用coze合成语音 heygem-lite合成视频 也挺快的

IDreamed avatar May 12 '25 08:05 IDreamed

@IDreamed 可以尝试本地F5-TTS + heygem, 不花钱,效果不错,我准备再单独测试一下fish-speech,我觉得硅基没有优化好,应该效果不会是这个样子,我现在也沙哑嗓子,没有点杂音了。

Matues320 avatar May 12 '25 08:05 Matues320

@Matues320 好的 谢谢

IDreamed avatar May 12 '25 08:05 IDreamed

@Matues3205非0没杂音但是声音太嘶哑了那种感觉

对的兄弟,我是5090显卡今天刚部署的,我也是这个情况,全网找办法...

xiaotang-12-ops avatar May 13 '25 12:05 xiaotang-12-ops

@xiaotang-12-ops 懒得弄 直接豆包语音 用lite 还快

IDreamed avatar May 14 '25 06:05 IDreamed

我昨天部署了rtx5090d显卡,测试了一下制作视频界面那个文本合成声音,点击试听按钮后,确实有沙哑的声音,2080ti的显卡就没这个问题,怀疑是fish-speech导致的,建议官方团队更换为cosyvoice2,效果很好,默认参数就效果很好了

Image Image Image

Describe the bug The RTX 5090 GPU has been deployed with guiji2025/fish-speech-5090 and guiji2025/heygem.ai-5090. It can be used, but when synthesizing text into speech, all the voices become hoarse. This issue did not occur when using the 2080TI GPU. I suspect there is a problem with fish-speech and suggest that the official team replace it with CosyVoice2, which has a very good effect.

To Reproduce Steps to reproduce the behavior: 1、Run the latest version of the client, 1.0.4. 2、Click on "Create Video". 3、Paste any text and click the "Preview" button. You will hear the hoarse synthesized audio.

simplify123 avatar May 22 '25 04:05 simplify123

这个不解决,50显卡没法用啊

mupengwong avatar May 28 '25 09:05 mupengwong