Practical-RIFE 关于模型的泛化性能

您好！ @hzwer

我尝试使用了4.25的训练代码从头训练模型，使用的是vimeo_septuplet+ATD12k+adobe240fps的训练集，验证集使用的是vimeo_septuplet的test_list.虽然指标和您在https://github.com/hzwer/ECCV2022-RIFE/issues/293 的类似，但是在验证集以外的场景上做推理效果却很差，远远比不上您发布的4.25预训练模型。

请问您是有其他的数据集，或者有别的训练方法提高了模型的泛化性能了吗？

Feb 17 '25 11:02 Shirifo

我是8个GPU，batchsize=8的场景，使用的是默认的代码，只修改了dataset.py的内容

Feb 17 '25 11:02 Shirifo

没有啊我代码完全直接打包发出来的

Feb 17 '25 13:02 hzwer

batchsize 8 会不会少训练了很多

Feb 17 '25 13:02 hzwer

好的！那我再试试batchsize=1的参数训练一下试试。另外想问一下，dataset里面的sportsslomo是https://github.com/neu-vi/SportsSloMo 这个论文里的数据集吗？您在训练的时候使用了吗

Feb 18 '25 01:02 Shirifo

对但是加完后效果反而下降了有点怪

Feb 18 '25 01:02 hzwer

哦哦，谢谢！ val_data里面的123test.json是哪个数据集的验证集呢？我的验证集依旧沿用的是RIFE里面的tri数据集中的验证集，可能这个数据集比较简单，导致benchmark的结果比较好

Feb 18 '25 02:02 Shirifo

@hzwer 还有一个问题，请问您使用的是单机多卡训练吗？还是多机多卡训练

Feb 18 '25 03:02 Shirifo

应该是同个验证集；单机多卡的

Feb 18 '25 04:02 hzwer

@hzwer 请问您还是训练的150个epoch吗？我训练完150个epoch，batchsize改为1，加到了3个数据集，指标反而下降了现在的：

之前的：

Feb 25 '25 01:02 Shirifo

这个测试是 vimeo 吧，可能只有加同源会看到指标提升真正实质指标还是得找一些综合的OOD数据

Feb 25 '25 05:02 hzwer

是用的vimeo测试集您的意思是，我应该自己做一些测试集来判断这个指标的变化吗？

Feb 25 '25 06:02 Shirifo

请问您在训练中是否遇到loss_cons逐渐变大然后nan的情况呢。我用4.25版本模型+自己的数据集 finetune 总是nan

Feb 25 '25 09:02 gitnana

@gitnana 我没有遇到过这个，但是我如果用自己制作的训练集训练过一段时间就会遇到预测全黑的情况，数据量增加后这个预测全黑的时间会变得更久一点

Feb 25 '25 11:02 Shirifo

@gitnana 我没有遇到过这个，但是我如果用自己制作的训练集训练过一段时间就会遇到预测全黑的情况，数据量增加后这个预测全黑的时间会变得更久一点

我的现象也是训练一段时间后预测全黑。然后发现loss_cons在训练中逐渐变大到nan，尝试过去掉loss_cons，结果loss_l1 loss_vgg也会nan

Feb 26 '25 02:02 gitnana

@gitnana 你的训练集有多少组训练图片？图片量过少会过拟合可能导致这个问题，我是增加到5000组微调，图片就不会黑了；当时没注意看loss_cons

Feb 26 '25 03:02 Shirifo

@gitnana 你的训练集有多少组训练图片？图片量过少会过拟合可能导致这个问题，我是增加到5000组微调，图片就不会黑了；当时没注意看loss_cons

我大概3w多，可能存在比较多 i0 i1差异很小的图。目前还观察到，teacher2的输出会异常。

Feb 26 '25 11:02 gitnana

这个测试是 vimeo 吧，可能只有加同源会看到指标提升真正实质指标还是得找一些综合的OOD数据

@hzwer 您好，对于指标的问题我通过更改验证集得到了验证，但是训练出来的模型在主观效果上，仍然和您发布的预训练模型有较大程度的差异，想请问您还有什么建议呢？

Feb 27 '25 01:02 Shirifo