关于模型的泛化性能
您好! @hzwer
我尝试使用了4.25的训练代码从头训练模型,使用的是vimeo_septuplet+ATD12k+adobe240fps的训练集,验证集使用的是vimeo_septuplet的test_list.虽然指标和您在https://github.com/hzwer/ECCV2022-RIFE/issues/293 的类似,但是在验证集以外的场景上做推理效果却很差,远远比不上您发布的4.25预训练模型。
请问您是有其他的数据集,或者有别的训练方法提高了模型的泛化性能了吗?
我是8个GPU,batchsize=8的场景,使用的是默认的代码,只修改了dataset.py的内容
没有啊 我代码完全直接打包发出来的
batchsize 8 会不会少训练了很多
好的!那我再试试batchsize=1的参数训练一下试试。 另外想问一下,dataset里面的sportsslomo是https://github.com/neu-vi/SportsSloMo 这个论文里的数据集吗?您在训练的时候使用了吗
对 但是加完后效果反而下降了 有点怪
哦哦,谢谢! val_data里面的123test.json是哪个数据集的验证集呢?我的验证集依旧沿用的是RIFE里面的tri数据集中的验证集,可能这个数据集比较简单,导致benchmark的结果比较好
@hzwer 还有一个问题,请问您使用的是单机多卡训练吗?还是多机多卡训练
应该是同个验证集;单机多卡的
@hzwer 请问您还是训练的150个epoch吗?我训练完150个epoch,batchsize改为1,加到了3个数据集,指标反而下降了 现在的:
之前的:
这个测试是 vimeo 吧,可能只有加同源会看到指标提升 真正实质指标还是得找一些综合的OOD数据
是用的vimeo测试集 您的意思是,我应该自己做一些测试集来判断这个指标的变化吗?
请问您在训练中是否遇到loss_cons逐渐变大然后nan的情况呢。我用4.25版本模型+自己的数据集 finetune 总是nan
@gitnana 我没有遇到过这个,但是我如果用自己制作的训练集训练过一段时间就会遇到预测全黑的情况,数据量增加后这个预测全黑的时间会变得更久一点
@gitnana 我没有遇到过这个,但是我如果用自己制作的训练集训练过一段时间就会遇到预测全黑的情况,数据量增加后这个预测全黑的时间会变得更久一点
我的现象也是训练一段时间后预测全黑。然后发现loss_cons在训练中逐渐变大到nan,尝试过去掉loss_cons,结果loss_l1 loss_vgg也会nan
@gitnana 你的训练集有多少组训练图片?图片量过少会过拟合可能导致这个问题,我是增加到5000组微调,图片就不会黑了;当时没注意看loss_cons
@gitnana 你的训练集有多少组训练图片?图片量过少会过拟合可能导致这个问题,我是增加到5000组微调,图片就不会黑了;当时没注意看loss_cons
我大概3w多,可能存在比较多 i0 i1差异很小的图。目前还观察到,teacher2的输出会异常。
这个测试是 vimeo 吧,可能只有加同源会看到指标提升 真正实质指标还是得找一些综合的OOD数据
@hzwer 您好,对于指标的问题我通过更改验证集得到了验证,但是训练出来的模型在主观效果上,仍然和您发布的预训练模型有较大程度的差异,想请问您还有什么建议呢?