Co-Speech-Motion-Generation icon indicating copy to clipboard operation
Co-Speech-Motion-Generation copied to clipboard

Freeform Body Motion Generation from Speech

Results 22 Co-Speech-Motion-Generation issues
Sort by recently updated
recently updated
newest added

hi,作者您好! 因为我注意到生成的json数据与OpenPose并不是相同的格式,是不是有可以将生成的json数据连续绘制出来的接口而我没有找到?如果您方便可以跟我说一下接口在哪里吗?

I have been trying to create my own dataset to use for training and I saw that stats are used in the auto labeling of the training data for each...

我自己录了一个半身的视频,从中取帧,利用openpose库生成了对应图片的json文件,作为vid2vid的训练集中train_openpose和train_img; 在从项目代码中提取出生成的手势关键点,写出成openpose格式的json文件,作为vid2vid测试集的test_openpose,test_img直接使用相同数量的train_img,使用单GPU从256训练到512再到1024,但是效果一直都非常差。 我想向您请教,您当时的训练参数是怎么样的?训练的时候是否使用了densepose呢?如果是训练使用densepose,那么测试的时候又如何生成densepose呢?最后一个问题,您当时是如何处理test_img数据的呢?也是直接拿train_img换的吗? **下面附上我训练的参数,希望能得到您的回复,恳请您指教,不胜感激!!!** ————————————第一轮256的训练参数———————————— python train.py --name my_new_pose_256_g1 --dataroot datasets/my_pose \ --dataset_mode pose --input_nc 3 --ngf 64 --num_D 2 \ --loadSize 384 --fineSize 256 --resize_or_crop randomScaleHeight_and_scaledCrop \ --max_frames_per_gpu 4...

像Speech2Gesture dataset一开始只有wav文件,请问怎么生成得到对应的TextGrid文件。

你好,请问每个音频对应的TextGrid文件是你们自己人工标注出来的吗?,能否提供一下你所测试Speech2Gesturedataset的数据集

根据文档配置到`Visualise the generated motions` 时,产生如下信息: (csmg) xht@xht-Z590-GAMING-X:~/SourceCode/Co-Speech-Motion-Generation/src$ bash visualise.sh making video Traceback (most recent call last): File "visualise/visualise_generation_res.py", line 36, in from visualise.draw_utils import * File "/home/xht/SourceCode/Co-Speech-Motion-Generation/src/visualise/draw_utils.py", line 5, in...

第一个问题: 我们从文件中输出了不同部位的keypoint的大小,可以看到: pose_keypoints_2d 75=25\*3 face_keypoints_2d 204=68\*3 hand_right_keypoints_2d 63=21\*3 hand_left_keypoints_2d 63=21\*3 这里pose,hands都和openpose给出的点数量一致,但是face的大小不一致呢。由项目生成出来的带有关键点信息的json文件中,脸部68个关键点,手部21个关键点\*2,body有25个关键点,但是由openpose开源项目生成的关键点,脸部有70个,请问您是怎么进行修改调整的呢? 第二个问题: ![000002](https://user-images.githubusercontent.com/57581519/167250335-74565eb1-4ba0-46b6-82cd-179c89ae8a76.jpg) 可视化的这个人的body部分只有12个点呀(我数的),远远不足25个点,但是keypoint文件中又是25\*3的大小,这应该怎么理解呢?这样的话是不是代表keypoint中多余的点数据是无效的呢?这样在训练vid2vid模型可视化出真人的时候,会出现点的不匹配导致视频人物扭曲变形吧? 就像我下面尝试的这样,请问是如何解决的呢?(这两张图是对应的openpose和生成的动态图片,可以看到openpose图像中出现了下肢点跑到上面了,手也连在了一起) ![real_A_000117](https://user-images.githubusercontent.com/57581519/167285785-f8276bdf-e8aa-439e-8931-d8453618e431.jpg) ![B73E9789B3B7787735CAF99B98839700](https://user-images.githubusercontent.com/57581519/167285847-81e7d13a-49d1-4ddf-8ada-c1d97922bedc.png) 希望能得到您的帮助呢,非常感谢!

怎么将最初的Speech2Gesturedataset应用到你这个模型上,能不能提供一下中间数据处理过程的代码。

您好!请问一下生成时间需要多久?比如对于一段10秒的语音,需要多长时间生成结果?其实我想问的就是实时性怎么样?