face-vid2vid
face-vid2vid copied to clipboard
你好,请问你可以分享一下处理好的数据集吗
可以使用百度网盘分享一下处理好的数据集吗
我直接下载到服务器上了,这个很难上传,毕竟有300G。最好找一个好点的网络环境自己运行脚本吧,当时我下载了1天半才下完。
大佬,非常感谢您贡献的代码。我做实验的时候也遇到了数据集的问题。训练这个模型其实可以不用下载完整的voxceleb数据集的,只要每个视频中随机抽取几帧做成一个小数据集就可以训练了。但是别人分享的百度网盘只有完整数据集的分卷,下载300G我这边使用迅雷需要下载一周左右。我也试过修改video-preprocessing中下载vox数据集的csv文件,每个视频只下载几帧,但是VPN不稳定经常掉线。请问能否将voxceleb的每个视频抽取几帧组成一个小的数据集放到百度云分享呢?非常感谢!
不好意思,数据集的问题只能靠你自己解决,我用300G训练效果还不错,太少估计达不到效果。
视频我已经下载好了,我的训练集应该怎么处理呢?没看到处理训练集的脚本
视频我已经下载好了,我的训练集应该怎么处理呢?没看到处理训练集的脚本
以默认参数运行datasets文件夹下load_videos.py会自动下载并处理数据集,也就是按照vox-metadata.csv里的视频id从youtube上下载视频、截取片段和人脸并保存为png图片。如果你下载的视频正确,可以使用load_videos.py完成处理。
感谢回答,那我再请教一下,你这个脚本处理好了,是一大堆mp4,还是拆开来的一帧一帧的图片啊?看代码,好像两种方式都支持?
感谢回答,那我再请教一下,你这个脚本处理好了,是一大堆mp4,还是拆开来的一帧一帧的图片啊?看代码,好像两种方式都支持?
默认参数下是png,这也是训练代码唯一支持的格式。拆成图片可以方便训练时随机选帧,降低io开销。
所以,我只要自己写个脚本,把我们现在的mp4取出来,统一放到一个指定文件夹下就解决了,对吧?root_dir/[mp4_name_dir]/*.png?是这种结构不?太感谢了
所以,我只要自己写个脚本,把我们现在的mp4取出来,统一放到一个指定文件夹下就解决了,对吧?root_dir/[mp4_name_dir]/*.png?是这种结构不?太感谢了
中间一级文件夹命名有些不同,需要是/人物id#视频id/,因为我的代码用了id sampling,也就是均匀采id,可以看dataset.py里的id_sampling参数。 示例:datasets/vox/train/id10192#S5yV10aCP7A#003200#003334.mp4/0000000.png...
我就说嘛,太感谢你的解释了,你的文件夹名还带了“.mp4”我就说。。。我百思不得其解,所以,按照你的结构示例,你指向的应该是datasets/vox,如果我带了train,test,就自动不带就用脚本自己分,你的人物id,其实也只有第一个#前的部分有用,其他也没用了,对吧?我只要自己拼一下人物id#视频id就ok了,太感谢了,总算豁然开朗了
我就说嘛,太感谢你的解释了,你的文件夹名还带了“.mp4”我就说。。。我百思不得其解,所以,按照你的结构示例,你指向的应该是datasets/vox,如果我带了train,test,就自动不带就用脚本自己分,你的人物id,其实也只有第一个#前的部分有用,其他也没用了,对吧?我只要自己拼一下人物id#视频id就ok了,太感谢了,总算豁然开朗了
你的理解是正确的,处理脚本是follow FOMM的,确实让人误解哈哈
说个笑话,按照我对dataset的理解,我已经实现了直接mp4去解码,然后边解码边训练了,就是效率太低了,太尴尬了
大佬,再请教下,我看你repeart了100次dataset,又设定了100个epoch,那就等于要跑1万个epoch,实际上,你真的跑了那么多吗?300个G的
大佬,再请教下,我看你repeart了100次dataset,又设定了100个epoch,那就等于要跑1万个epoch,实际上,你真的跑了那么多吗?300个G的
需要的,但一个epoch并没有遍历数据集,因为开启id sampling后一个epoch内每个id采1个片段,每个片段采两帧,vox1大概只有1152个id
那我发现你每个epoch之后,并没有打乱顺序,也是这个原因吗?
那我发现你每个epoch之后,并没有打乱顺序,也是这个原因吗?
你是指训练集的shuffle吗,每次的训练样本是随机在数据集里采样的,用不着shuffle
是的,非常感谢,因为我看到每次save的图像source 跟driving很像,我单独做了一次,不过你说的有道理,也没必要,扫过1次就有1次random了。非常感谢大佬。
大佬,请教下,这个15个关键点我打印出来了,看不懂其中的含义,如果我只想用来控制嘴巴跟眼睛的动作,其他不变,我应该如何处理呢?
大佬,请教下,这个15个关键点我打印出来了,看不懂其中的含义,如果我只想用来控制嘴巴跟眼睛的动作,其他不变,我应该如何处理呢?
这篇文章学的自监督关键点应该没有具体的语义,或许你可以扰动一下它们的位置看看效果
我试过了,他这里并没有明确的语义,那估计只能改成类似于SPACEx那样,加上2D关键点来驱动了