Co-Speech-Motion-Generation
Co-Speech-Motion-Generation copied to clipboard
在复现这个项目的过程中,我遇到了很多问题无法解决。
问题包括以下方面: 1、new speaker的keypoint是怎么生成的? 2、我想要生成新的人物演讲动作,我需要从该人物的以往手势视频中获取lab、wav、textgrid(通过mfa音素对齐),此外还要进行openpose获取keypoint吗? 3、请问您提供的预训练模型是通用的吗?(我的意思是指:不需要指定某个说话人,生成他的动作风格) 如果您能提供一个联系方式来讨论问题,不胜感激!我已经为您这个项目忙活了半个月了,实在是很多地方不太理解。
- 不太明白你的意思
- 重新训练需要这些,生成的话构建类似sample_audio文件夹里面的数据(.wav, .textgrid)就行了
- 模型里不需要指定说话人,这里没有动作风格的概念,通不通用看你的目的是啥
我尝试了只使用sample_audio文件夹里面的数据(.wav, .textgrid)不指定clip_path的情况下,生成出来是只有手势没有脸的如下

看了代码,有无clip_path有一些区别,但是最后生成的pose矩阵维度是一样的,不明白为何最终只有手势,并且如何解决这个问题? 希望您可以解答此问题,感激不尽!
@Olivia-Ye clip_path specifies ground truth which is where face keypoints are stored. the model outputs upper body configuration, exclusive of face landmarks.