Ask-Anything
Ask-Anything copied to clipboard
VideoChat2第三阶段的预训练模型使用
作者好~ 在VideoChat2的训练中, 第二阶段训练中,会对Visual Encode和QFormer进行参数训练,导致参数发生变化。 那么在第三阶段训练中,输入的vit_blip_model,是来自于第二阶段参数发生变化的模型,还是重新使用原始的vit_blip_model?
作者好~ 请忽略上一条提问。 在训练VideoChat2的第三阶段时,基于你提供的训练集,在极少量训练集缺失数据的情况下, 采用32 batchsize进行训练。目前算法性能最高在50.15%左右。其中如:Action Sequence(-7pp),Scene Transition(-12pp)等数据集差距较大。 请问:
- 复现的性能降低,是否会与batchsize有关系。
- 从小数据集的指标看,表现好的指标较难达到,表现差的指标持平或略高。在尝试复现的过程中,采用默认参数。请问,有什么训练的优化方案吗?
辛苦帮忙解答一下。
batch size也许会有影响,但我感觉影响不大,你可以适当在降batch的时候降一下学习率。另外后续实验发现,COCO和WebVid使用小数据量版本效果偶尔会更好,个人感觉浮动在0.5%以内都比较正常
batch size也许会有影响,但我感觉影响不大,你可以适当在降batch的时候降一下学习率。另外后续实验发现,COCO和WebVid使用小数据量版本效果偶尔会更好,个人感觉浮动在0.5%以内都比较正常
非常感谢~