video-retalking
video-retalking copied to clipboard
中文的唇动效果似乎比较差?请问是否有对中文做优化?
训练所用的数据集为英文,可以泛化到不同语种,但性能有一定程度的下降。 将LNet在合适的大规模中文视频数据集上重新训练或许能提升效果。
训练部分的程序,是否有计划释放出来。目前为止,尚未看到。不知道是否与有计划开放,训练不成的程序?
关于LNet的训练过程目前可以参考Wav2Lip,我们与其类似采用self-reconstruction的方式在LRS2 dataset上训练。 迁移到不同数据集上训练有一定困难,若是从网络上收集的数据首先需要进行音视频对齐,其次训练lip-sync判别器,最后训练lip-sync network,具体可以参考这里。
@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的,感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。
@kunncheng 看SadTalker的项目说是在VoxCeleb1 数据集上训练的,感觉中文的唇动效果似乎要比video-retalking效果好一些。不知道是否有计划提供一些其他数据集上进行训练的模型。
SadTalker是驱动单张图像,本项目是编辑视频,多帧与单帧任务之间难度不同,这也是DNet所要解决的问题,希望能将多帧驱动简化为单帧,即将口型归一化。
也尝试过在别的数据集上训练,但难以收敛或性能未取得明显提升。因此暂时没有该计划
OpenTalker
希望有个中文的训练集;目前适配中文,面部相对清晰度下降不少