Co-Speech-Motion-Generation icon indicating copy to clipboard operation
Co-Speech-Motion-Generation copied to clipboard

在复现这个项目的过程中,我遇到了很多问题无法解决。

Open Olivia-Ye opened this issue 3 years ago • 3 comments

问题包括以下方面: 1、new speaker的keypoint是怎么生成的? 2、我想要生成新的人物演讲动作,我需要从该人物的以往手势视频中获取lab、wav、textgrid(通过mfa音素对齐),此外还要进行openpose获取keypoint吗? 3、请问您提供的预训练模型是通用的吗?(我的意思是指:不需要指定某个说话人,生成他的动作风格) 如果您能提供一个联系方式来讨论问题,不胜感激!我已经为您这个项目忙活了半个月了,实在是很多地方不太理解。

Olivia-Ye avatar Apr 24 '22 08:04 Olivia-Ye

  1. 不太明白你的意思
  2. 重新训练需要这些,生成的话构建类似sample_audio文件夹里面的数据(.wav, .textgrid)就行了
  3. 模型里不需要指定说话人,这里没有动作风格的概念,通不通用看你的目的是啥

TheTempAccount avatar Apr 28 '22 02:04 TheTempAccount

我尝试了只使用sample_audio文件夹里面的数据(.wav, .textgrid)不指定clip_path的情况下,生成出来是只有手势没有脸的如下 000008

看了代码,有无clip_path有一些区别,但是最后生成的pose矩阵维度是一样的,不明白为何最终只有手势,并且如何解决这个问题? 希望您可以解答此问题,感激不尽!

Olivia-Ye avatar Apr 29 '22 07:04 Olivia-Ye

@Olivia-Ye clip_path specifies ground truth which is where face keypoints are stored. the model outputs upper body configuration, exclusive of face landmarks.

ChengyuanYan avatar Aug 21 '23 21:08 ChengyuanYan