Zhenhui Ye

Results 41 comments of Zhenhui Ye

很感谢你的发现,lrs3原始数据集就是根据人脸的bounding box截取的,所以原始视频就会有脸部忽大忽小的问题。我会在本周尝试重新处理一下数据,采用一个静止相机的数据集(th1kh)训练模型。如果效果理想的话我会第一时间更新audio2motion模型和代码。 再次感谢你的建议!

你好,根据我们的测试,发现虽然指定align_img的crop原图像的bbox框可以增加提取的3DMM参数和pose的稳定性,但是会严重影响重建的mesh的精度,尤其是嘴形和眨眼的细节几乎都丢失了。因此你提到的固定bbox为第一帧的方案可能不可行。 我们之后会尝试一下更平滑的3DMM提取器,比如这个[[仓库](https://github.com/Zielon/metrical-tracker)](https://github.com/Zielon/metrical-tracker)

https://user-images.githubusercontent.com/48365204/233900445-682bd6d7-7e43-459e-a032-9eebb04d00f0.mp4 你觉得这个如何?

可以的,这个比较稳定的版本是我们近期的一个大更新,使用的还是3DMM。我最近在完成论文的书写,会尽快完成代码整理和上传。

单纯是因为最近比较忙,还没有来得及尝试其他的3DMM提取器~之后有空时会尝试一下的哈哈哈!

推荐可以使用LRS2的trainval set(30小时左右)作为toy dataset,我试过效果还是准的,只是val loss上升得会比较快。我现在内部使用的是清洗过的TH1KH(大约180小时)。 在代码层面需要修改的不多,你只要写一个类似`deep_3drecon)/reconstructor.py`的接口类调用对应的3DMM提取器就好了。

你好,exp、identity的本质是canonical空间的人脸mesh,pose对应的则是人脸的姿态。你可以看看提取的特征里有没有pose、landmark相关的信息。如果有的话说明这个提取器可以使用。

Yes, the current codebase only supports 512x512 and 25 fps videos as the training data. For the blurry issue, it might be the problem of volume rendering. We have addressed...

Hi Qifeng, I suspect it might be the problem of selecting a appropriate checkpoint of the postnet. Maybe you can refer to [this doc](https://github.com/yerfor/GeneFace/blob/main/docs/train_models/train_models.md) and [this figure](https://github.com/yerfor/GeneFace/blob/main/assets/tips_to_select_postnet_ckpt.png). Also, we plan...