video-retalking 中文的唇动效果似乎比较差？请问是否有对中文做优化？

中文的唇动效果似乎比较差？请问是否有对中文做优化？

Open magicleo opened this issue 1 year ago • 7 comments

Apr 07 '23 08:04 magicleo

训练所用的数据集为英文，可以泛化到不同语种，但性能有一定程度的下降。将LNet在合适的大规模中文视频数据集上重新训练或许能提升效果。

Apr 08 '23 06:04 kunncheng

训练部分的程序，是否有计划释放出来。目前为止，尚未看到。不知道是否与有计划开放，训练不成的程序？

Apr 08 '23 23:04 zhangziliang04

关于LNet的训练过程目前可以参考Wav2Lip，我们与其类似采用self-reconstruction的方式在LRS2 dataset上训练。迁移到不同数据集上训练有一定困难，若是从网络上收集的数据首先需要进行音视频对齐，其次训练lip-sync判别器，最后训练lip-sync network，具体可以参考这里。

Apr 09 '23 06:04 kunncheng

@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的，感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。

Apr 09 '23 11:04 magicleo

@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的，感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。

SadTalker是驱动单张图像，本项目是编辑视频，多帧与单帧任务之间难度不同，这也是DNet所要解决的问题，希望能将多帧驱动简化为单帧，即将口型归一化。

也尝试过在别的数据集上训练，但难以收敛或性能未取得明显提升。因此暂时没有该计划

Apr 09 '23 12:04 kunncheng

OpenTalker

Apr 29 '23 05:04 desaltsand

希望有个中文的训练集；目前适配中文，面部相对清晰度下降不少

Mar 29 '24 09:03 marsjin

video-retalking video-retalking copied to clipboard

中文的唇动效果似乎比较差？请问是否有对中文做优化？

video-retalking
video-retalking copied to clipboard