GeneFace
GeneFace copied to clipboard
请教一下中文说话人生成嘴部同步问题
作者您好,非常感谢您开源了整个项目,我看了您最新上传的一个女性演唱中文歌曲的视频,效果非常好。但是我自己用一段中文渲染人物的时候,发现嘴巴同步效果很差,您知道是什么原因吗?谢谢您。
https://github.com/yerfor/GeneFace/assets/41902297/dbcd9805-be30-40b5-9374-ed3143843600
你好,大概率是因为postnet没有被很好的训练导致的。为了验证这点,您可以使用utils.visualization.lm_visualizer.py来可视化postnet生成的landmark文件,然后观察其是否与语音对齐。因为GeneFace的postnet的训练依赖GAN loss,导致其训练不太稳定,得到效果好的ckpt需要一定的技巧,具体可以看一下我们在train_models.md里面提到的技巧。如果您愿意等的话,可以等一波我们会在8月份发布的GeneFace++代码(会作为本仓库的一个release),在其中postnet的训练难度得到大大简化。
你好,大概率是因为postnet没有被很好的训练导致的。为了验证这点,您可以使用utils.visualization.lm_visualizer.py来可视化postnet生成的landmark文件,然后观察其是否与语音对齐。因为GeneFace的postnet的训练依赖GAN loss,导致其训练不太稳定,得到效果好的ckpt需要一定的技巧,具体可以看一下我们在train_models.md里面提到的技巧。如果您愿意等的话,可以等一波我们会在8月份发布的GeneFace++代码(会作为本仓库的一个release),在其中postnet的训练难度得到大大简化。
非常感谢您的答复,期待您新发布的代码。另外我想请教一下您,您有没有想过研究一下合成带手部动作的视频。
您好,请教一下。 当前我将代码中的Demo May已经能够跑起来了,如果我想使用【一段音频】+【1张图片】+【使用May训练出来的模型】来生成最终结果的视频,这样的操作是可以的吗?如果是可以的,我该如何操作?
你好,GeneFace和GeneFace++属于person-specific的方法,即在May视频上训练的模型只能用于生成May。如果需要用单张图片驱动,可以尝试一下SadTalker等单图驱动的方法
-----原始邮件----- 发件人:DAIPING @.> 发送时间:2023-07-28 17:33:24 (星期五) 收件人: yerfor/GeneFace @.> 抄送: "Zhenhui Ye" @.>, Comment @.> 主题: Re: [yerfor/GeneFace] 请教一下中文说话人生成嘴部同步问题 (Issue #152)
您好,请教一下。 当前我将代码中的Demo May已经能够跑起来了,如果我想使用【一段音频】+【1张图片】+【使用May训练出来的模型】来生成最终结果的视频,这样的操作是可以的吗?如果是可以的,我该如何操作?
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
好的,感谢您的分享!
@yerfor 大佬,麻烦问一下Geneface++的进展如何了?很期待!