zhanghang-official

Results 4 issues of zhanghang-official

我们复现的模型性能与发布模型性能相差4-5pp(mvbench),考虑是否有flash_attn版本不一致的原因。 发布版本的flash_attn==1.0.4,我们机器安装flash_attn==1.0.4报错,但是可以顺利安装flash_attn==2.4.2。由于flash_attn==2.4.2对于flash_attn==1.0.4是完全重构,想了解一下flash_attn升级版本是否对模型性能产生影响,贵团队是否利用flash_attn==2.4.2训练并测试过模型性能。

三阶段训练 max_txt_l = 512 参数什么作用,由于显卡只有40G,显存需要将max_txt_l下调,下调会有出现影响呢?

二阶段训练需要 from models.videochat2_pt import VideoChat2_pt 但是发布的版本是 from models.videochat2_it import VideoChat2_it 麻烦修改下。(是不是你们设置的小彩蛋)

训练过程中很快出现loss跳变为0的现象,降低学习率无法解决该问题。 配置文件如下: model: arch: st_llm_hf model_type: instructblip_vicuna0 use_grad_checkpoint: True max_txt_len: 256 end_sym: "###" #prompt_path: "prompts/alignment.txt" prompt_template: '###Human: {} ###Assistant: ' llama_model: '/root/qfs/lmm/weights/stllm/pretrained/vicuna-7b-v1.1/' ckpt: '/root/qfs/lmm/weights/stllm/pretrained/instruct_blip_vicuna7b_trimmed.pth' q_former_model: '/root/qfs/lmm/weights/stllm/pretrained/instruct_blip_vicuna7b_trimmed.pth' qformer_text_input: True freeze_LLM: False...