face-vid2vid icon indicating copy to clipboard operation
face-vid2vid copied to clipboard

你好,请问你可以分享一下处理好的数据集吗

Open madgnot opened this issue 3 years ago • 20 comments

可以使用百度网盘分享一下处理好的数据集吗

madgnot avatar Oct 20 '21 08:10 madgnot

我直接下载到服务器上了,这个很难上传,毕竟有300G。最好找一个好点的网络环境自己运行脚本吧,当时我下载了1天半才下完。

zhengkw18 avatar Oct 20 '21 08:10 zhengkw18

大佬,非常感谢您贡献的代码。我做实验的时候也遇到了数据集的问题。训练这个模型其实可以不用下载完整的voxceleb数据集的,只要每个视频中随机抽取几帧做成一个小数据集就可以训练了。但是别人分享的百度网盘只有完整数据集的分卷,下载300G我这边使用迅雷需要下载一周左右。我也试过修改video-preprocessing中下载vox数据集的csv文件,每个视频只下载几帧,但是VPN不稳定经常掉线。请问能否将voxceleb的每个视频抽取几帧组成一个小的数据集放到百度云分享呢?非常感谢!

Liangtian96 avatar Feb 12 '22 15:02 Liangtian96

不好意思,数据集的问题只能靠你自己解决,我用300G训练效果还不错,太少估计达不到效果。

zhengkw18 avatar Feb 12 '22 15:02 zhengkw18

视频我已经下载好了,我的训练集应该怎么处理呢?没看到处理训练集的脚本

bobo-wmdigit avatar Apr 11 '23 11:04 bobo-wmdigit

视频我已经下载好了,我的训练集应该怎么处理呢?没看到处理训练集的脚本

以默认参数运行datasets文件夹下load_videos.py会自动下载并处理数据集,也就是按照vox-metadata.csv里的视频id从youtube上下载视频、截取片段和人脸并保存为png图片。如果你下载的视频正确,可以使用load_videos.py完成处理。

zhengkw18 avatar Apr 11 '23 18:04 zhengkw18

感谢回答,那我再请教一下,你这个脚本处理好了,是一大堆mp4,还是拆开来的一帧一帧的图片啊?看代码,好像两种方式都支持?

bobo-wmdigit avatar Apr 13 '23 08:04 bobo-wmdigit

感谢回答,那我再请教一下,你这个脚本处理好了,是一大堆mp4,还是拆开来的一帧一帧的图片啊?看代码,好像两种方式都支持?

默认参数下是png,这也是训练代码唯一支持的格式。拆成图片可以方便训练时随机选帧,降低io开销。

zhengkw18 avatar Apr 13 '23 08:04 zhengkw18

所以,我只要自己写个脚本,把我们现在的mp4取出来,统一放到一个指定文件夹下就解决了,对吧?root_dir/[mp4_name_dir]/*.png?是这种结构不?太感谢了

bobo-wmdigit avatar Apr 13 '23 08:04 bobo-wmdigit

所以,我只要自己写个脚本,把我们现在的mp4取出来,统一放到一个指定文件夹下就解决了,对吧?root_dir/[mp4_name_dir]/*.png?是这种结构不?太感谢了

中间一级文件夹命名有些不同,需要是/人物id#视频id/,因为我的代码用了id sampling,也就是均匀采id,可以看dataset.py里的id_sampling参数。 示例:datasets/vox/train/id10192#S5yV10aCP7A#003200#003334.mp4/0000000.png...

zhengkw18 avatar Apr 13 '23 09:04 zhengkw18

我就说嘛,太感谢你的解释了,你的文件夹名还带了“.mp4”我就说。。。我百思不得其解,所以,按照你的结构示例,你指向的应该是datasets/vox,如果我带了train,test,就自动不带就用脚本自己分,你的人物id,其实也只有第一个#前的部分有用,其他也没用了,对吧?我只要自己拼一下人物id#视频id就ok了,太感谢了,总算豁然开朗了

bobo-wmdigit avatar Apr 13 '23 09:04 bobo-wmdigit

我就说嘛,太感谢你的解释了,你的文件夹名还带了“.mp4”我就说。。。我百思不得其解,所以,按照你的结构示例,你指向的应该是datasets/vox,如果我带了train,test,就自动不带就用脚本自己分,你的人物id,其实也只有第一个#前的部分有用,其他也没用了,对吧?我只要自己拼一下人物id#视频id就ok了,太感谢了,总算豁然开朗了

你的理解是正确的,处理脚本是follow FOMM的,确实让人误解哈哈

zhengkw18 avatar Apr 13 '23 09:04 zhengkw18

说个笑话,按照我对dataset的理解,我已经实现了直接mp4去解码,然后边解码边训练了,就是效率太低了,太尴尬了

bobo-wmdigit avatar Apr 13 '23 09:04 bobo-wmdigit

大佬,再请教下,我看你repeart了100次dataset,又设定了100个epoch,那就等于要跑1万个epoch,实际上,你真的跑了那么多吗?300个G的

bobo-wmdigit avatar Apr 14 '23 03:04 bobo-wmdigit

大佬,再请教下,我看你repeart了100次dataset,又设定了100个epoch,那就等于要跑1万个epoch,实际上,你真的跑了那么多吗?300个G的

需要的,但一个epoch并没有遍历数据集,因为开启id sampling后一个epoch内每个id采1个片段,每个片段采两帧,vox1大概只有1152个id

zhengkw18 avatar Apr 14 '23 03:04 zhengkw18

那我发现你每个epoch之后,并没有打乱顺序,也是这个原因吗?

bobo-wmdigit avatar Apr 14 '23 07:04 bobo-wmdigit

那我发现你每个epoch之后,并没有打乱顺序,也是这个原因吗?

你是指训练集的shuffle吗,每次的训练样本是随机在数据集里采样的,用不着shuffle

zhengkw18 avatar Apr 14 '23 07:04 zhengkw18

是的,非常感谢,因为我看到每次save的图像source 跟driving很像,我单独做了一次,不过你说的有道理,也没必要,扫过1次就有1次random了。非常感谢大佬。

bobo-wmdigit avatar Apr 14 '23 09:04 bobo-wmdigit

大佬,请教下,这个15个关键点我打印出来了,看不懂其中的含义,如果我只想用来控制嘴巴跟眼睛的动作,其他不变,我应该如何处理呢?

bobo-wmdigit avatar Apr 25 '23 06:04 bobo-wmdigit

大佬,请教下,这个15个关键点我打印出来了,看不懂其中的含义,如果我只想用来控制嘴巴跟眼睛的动作,其他不变,我应该如何处理呢?

这篇文章学的自监督关键点应该没有具体的语义,或许你可以扰动一下它们的位置看看效果

zhengkw18 avatar Apr 25 '23 07:04 zhengkw18

我试过了,他这里并没有明确的语义,那估计只能改成类似于SPACEx那样,加上2D关键点来驱动了

bobo-wmdigit avatar Apr 25 '23 07:04 bobo-wmdigit