Ting Zhang

Results 5 comments of Ting Zhang

Hi, python=3.10.13, torch=1.13.1+cu117, torchvision=0.14.1+cu117, cuda=11.7.

> For me, code is run at A100 with > > ```shell > Python=3.7.12 > cuda=11.7 > torch=1.13.1+cu117 > torchvision=0.14.1+cu117 > ``` Hi, I have tested the VideoChat2 model on...

我也遇到了同样的问题,我是有8张v100,PER_DEVICE_BATCH_SIZE设为1,BATCH_SIZE设为8

> > 我也遇到了同样的问题,我是有8张v100,PER_DEVICE_BATCH_SIZE设为1,BATCH_SIZE设为8 > > 您好,您可以先试试只微调MLP层,看看会不会OOM > > ```shell > --freeze_llm True \ > --freeze_mlp False \ > --freeze_backbone True \ > ``` 您好,我下午按这样修改后,还是会OOM,我发现训练时显存只有显卡0的一直在涨然后爆掉,其他显卡显存一直没有用上是什么原因呢 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 GPUS=8 BATCH_SIZE=8 PER_DEVICE_BATCH_SIZE=1 sh shell/hermes2_yi34b/internvl_chat_v1_2_hermes2_yi34b_448_finetune.sh

> 百度网盘已上传:https://github.com/callsys/ControlCap/blob/main/docs/data.md 好的 谢谢