Video-LLaMA icon indicating copy to clipboard operation
Video-LLaMA copied to clipboard

visionbranch stage2收敛问题

Open octopusszzy opened this issue 2 years ago • 0 comments

你好,我根据代码尝试复现stage2的效果,发现了以下现象: 0. 数据均使用代码中声明的cc_sbu_align、llava_instruct、webvid_instruct三个数据集

  1. 使用repo中给出的pretrain_vicuna7b-v2.pth,可以顺利复现出正常的vicuna7b_stage2的效果。此时观察到cc_sbu_align的loss收敛到0.1附近
  2. 使用repo中给出的pretrain-vicuna13b.pth,训练出的stage2模型对图片和视频的识别能力很差,经常答非所问。如果观察loss,cc_sbu_align的loss大概在0.7-0.9浮动

以上两个实验除了llm和ckpt外,无任何超参区别。请问关于13b的finetune是有什么特殊的调参技巧吗?

octopusszzy avatar Sep 04 '23 02:09 octopusszzy