Video-LLaMA
Video-LLaMA copied to clipboard

Published 20 hours ago •

Reame
Issues

visionbranch stage2收敛问题

Open octopusszzy opened this issue 2 years ago • 0 comments

你好，我根据代码尝试复现stage2的效果，发现了以下现象: 0. 数据均使用代码中声明的cc_sbu_align、llava_instruct、webvid_instruct三个数据集

使用repo中给出的pretrain_vicuna7b-v2.pth，可以顺利复现出正常的vicuna7b_stage2的效果。此时观察到cc_sbu_align的loss收敛到0.1附近
使用repo中给出的pretrain-vicuna13b.pth，训练出的stage2模型对图片和视频的识别能力很差，经常答非所问。如果观察loss，cc_sbu_align的loss大概在0.7-0.9浮动

以上两个实验除了llm和ckpt外，无任何超参区别。请问关于13b的finetune是有什么特殊的调参技巧吗？

Sep 04 '23 02:09 octopusszzy