Ask-Anything
Ask-Anything copied to clipboard
VideoChat2第三阶段的预训练模型使用
作者好~ 在VideoChat2的训练中, 第二阶段训练中,会对Visual Encode和QFormer进行参数训练,导致参数发生变化。 那么在第三阶段训练中,输入的vit_blip_model,是来自于第二阶段参数发生变化的模型,还是重新使用原始的vit_blip_model?