Practical-RIFE icon indicating copy to clipboard operation
Practical-RIFE copied to clipboard

关于模型的泛化性能

Open Shirifo opened this issue 10 months ago • 17 comments

您好! @hzwer

我尝试使用了4.25的训练代码从头训练模型,使用的是vimeo_septuplet+ATD12k+adobe240fps的训练集,验证集使用的是vimeo_septuplet的test_list.虽然指标和您在https://github.com/hzwer/ECCV2022-RIFE/issues/293 的类似,但是在验证集以外的场景上做推理效果却很差,远远比不上您发布的4.25预训练模型。

请问您是有其他的数据集,或者有别的训练方法提高了模型的泛化性能了吗?

Shirifo avatar Feb 17 '25 11:02 Shirifo

我是8个GPU,batchsize=8的场景,使用的是默认的代码,只修改了dataset.py的内容

Shirifo avatar Feb 17 '25 11:02 Shirifo

没有啊 我代码完全直接打包发出来的

hzwer avatar Feb 17 '25 13:02 hzwer

batchsize 8 会不会少训练了很多

hzwer avatar Feb 17 '25 13:02 hzwer

好的!那我再试试batchsize=1的参数训练一下试试。 另外想问一下,dataset里面的sportsslomo是https://github.com/neu-vi/SportsSloMo 这个论文里的数据集吗?您在训练的时候使用了吗

Shirifo avatar Feb 18 '25 01:02 Shirifo

对 但是加完后效果反而下降了 有点怪

hzwer avatar Feb 18 '25 01:02 hzwer

哦哦,谢谢! val_data里面的123test.json是哪个数据集的验证集呢?我的验证集依旧沿用的是RIFE里面的tri数据集中的验证集,可能这个数据集比较简单,导致benchmark的结果比较好

Shirifo avatar Feb 18 '25 02:02 Shirifo

@hzwer 还有一个问题,请问您使用的是单机多卡训练吗?还是多机多卡训练

Shirifo avatar Feb 18 '25 03:02 Shirifo

应该是同个验证集;单机多卡的

hzwer avatar Feb 18 '25 04:02 hzwer

@hzwer 请问您还是训练的150个epoch吗?我训练完150个epoch,batchsize改为1,加到了3个数据集,指标反而下降了 现在的:

Image 之前的: Image

Shirifo avatar Feb 25 '25 01:02 Shirifo

这个测试是 vimeo 吧,可能只有加同源会看到指标提升 真正实质指标还是得找一些综合的OOD数据

hzwer avatar Feb 25 '25 05:02 hzwer

是用的vimeo测试集 您的意思是,我应该自己做一些测试集来判断这个指标的变化吗?

Shirifo avatar Feb 25 '25 06:02 Shirifo

请问您在训练中是否遇到loss_cons逐渐变大然后nan的情况呢。我用4.25版本模型+自己的数据集 finetune 总是nan

gitnana avatar Feb 25 '25 09:02 gitnana

@gitnana 我没有遇到过这个,但是我如果用自己制作的训练集训练过一段时间就会遇到预测全黑的情况,数据量增加后这个预测全黑的时间会变得更久一点

Shirifo avatar Feb 25 '25 11:02 Shirifo

@gitnana 我没有遇到过这个,但是我如果用自己制作的训练集训练过一段时间就会遇到预测全黑的情况,数据量增加后这个预测全黑的时间会变得更久一点

我的现象也是训练一段时间后预测全黑。然后发现loss_cons在训练中逐渐变大到nan,尝试过去掉loss_cons,结果loss_l1 loss_vgg也会nan

gitnana avatar Feb 26 '25 02:02 gitnana

@gitnana 你的训练集有多少组训练图片?图片量过少会过拟合可能导致这个问题,我是增加到5000组微调,图片就不会黑了;当时没注意看loss_cons

Shirifo avatar Feb 26 '25 03:02 Shirifo

@gitnana 你的训练集有多少组训练图片?图片量过少会过拟合可能导致这个问题,我是增加到5000组微调,图片就不会黑了;当时没注意看loss_cons

我大概3w多,可能存在比较多 i0 i1差异很小的图。目前还观察到,teacher2的输出会异常。

gitnana avatar Feb 26 '25 11:02 gitnana

这个测试是 vimeo 吧,可能只有加同源会看到指标提升 真正实质指标还是得找一些综合的OOD数据

@hzwer 您好,对于指标的问题我通过更改验证集得到了验证,但是训练出来的模型在主观效果上,仍然和您发布的预训练模型有较大程度的差异,想请问您还有什么建议呢?

Shirifo avatar Feb 27 '25 01:02 Shirifo