Ask-Anything VideoChat2第三阶段的预训练模型使用

作者好~ 在VideoChat2的训练中，第二阶段训练中，会对Visual Encode和QFormer进行参数训练，导致参数发生变化。那么在第三阶段训练中，输入的vit_blip_model，是来自于第二阶段参数发生变化的模型，还是重新使用原始的vit_blip_model？

Mar 11 '24 03:03 ruishuzhao

作者好~ 请忽略上一条提问。在训练VideoChat2的第三阶段时，基于你提供的训练集，在极少量训练集缺失数据的情况下，采用32 batchsize进行训练。目前算法性能最高在50.15%左右。其中如：Action Sequence（-7pp），Scene Transition（-12pp）等数据集差距较大。请问：

复现的性能降低，是否会与batchsize有关系。
从小数据集的指标看，表现好的指标较难达到，表现差的指标持平或略高。在尝试复现的过程中，采用默认参数。请问，有什么训练的优化方案吗？

辛苦帮忙解答一下。

Mar 11 '24 09:03 ruishuzhao

batch size也许会有影响，但我感觉影响不大，你可以适当在降batch的时候降一下学习率。另外后续实验发现，COCO和WebVid使用小数据量版本效果偶尔会更好，个人感觉浮动在0.5%以内都比较正常

Mar 11 '24 09:03 Andy1621

batch size也许会有影响，但我感觉影响不大，你可以适当在降batch的时候降一下学习率。另外后续实验发现，COCO和WebVid使用小数据量版本效果偶尔会更好，个人感觉浮动在0.5%以内都比较正常

非常感谢~

Mar 11 '24 09:03 ruishuzhao