zhanghang-official issues

Results 4 issues of


zhanghang-official

flash_attn版本讨论

我们复现的模型性能与发布模型性能相差4-5pp（mvbench），考虑是否有flash_attn版本不一致的原因。发布版本的flash_attn==1.0.4，我们机器安装flash_attn==1.0.4报错，但是可以顺利安装flash_attn==2.4.2。由于flash_attn==2.4.2对于flash_attn==1.0.4是完全重构，想了解一下flash_attn升级版本是否对模型性能产生影响，贵团队是否利用flash_attn==2.4.2训练并测试过模型性能。

训练参数问题

三阶段训练 max_txt_l = 512 参数什么作用，由于显卡只有40G，显存需要将max_txt_l下调，下调会有出现影响呢？

二阶段训练代码有错误

二阶段训练需要 from models.videochat2_pt import VideoChat2_pt 但是发布的版本是 from models.videochat2_it import VideoChat2_it 麻烦修改下。（是不是你们设置的小彩蛋）

微调过程中loss问题

训练过程中很快出现loss跳变为0的现象，降低学习率无法解决该问题。配置文件如下： model: arch: st_llm_hf model_type: instructblip_vicuna0 use_grad_checkpoint: True max_txt_len: 256 end_sym: "###" #prompt_path: "prompts/alignment.txt" prompt_template: '###Human: {} ###Assistant: ' llama_model: '/root/qfs/lmm/weights/stllm/pretrained/vicuna-7b-v1.1/' ckpt: '/root/qfs/lmm/weights/stllm/pretrained/instruct_blip_vicuna7b_trimmed.pth' q_former_model: '/root/qfs/lmm/weights/stllm/pretrained/instruct_blip_vicuna7b_trimmed.pth' qformer_text_input: True freeze_LLM: False...