swift icon indicating copy to clipboard operation
swift copied to clipboard

2.0.4之后的版本的显存使用问题

Open kratorado opened this issue 1 month ago • 5 comments

Describe the bug 自从支持lisa以后,8个v100可以全参数微调32b了 我一直是用main分支源码安装使用swift的,最近几天发现同样入参的微调命令,以前可以运行,现在会报显存不足的问题

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 NPROC_PER_NODE=1  \
swift sft --sft_type full  \
  --model_type qwen1half-32b-chat   \
  --dataset ms-bench \
  --train_dataset_sample 5000 \
  --self_cognition_sample 1000     \
  --logging_steps 5     \
  --max_length 2048     \
  --learning_rate 5e-5     \
  --warmup_ratio 0.4     \
  --output_dir output   \
  --num_train_epochs 1         \
  --eval_steps 100        \
  --save_steps 100 \
  --lisa_activated_layers=2 \
  --model_name 小黄 'Xiao Huang' \
  --model_author 魔搭 ModelScope 

换到main分支后,运行命令改了,主要是训练数据集的那几条命令格式改成了 --dataset ms-bench#5000 这种 就再也跑不起来了,

其余参数都是用默认的,想知道具体问题大概会出在哪里

Your hardware and system info Write your system info like CUDA version/system/GPU/torch version here(在这里给出硬件信息和系统信息,如CUDA版本,系统,GPU型号和torch版本等)

Additional context Add any other context about the problem here(在这里补充其他信息)

kratorado avatar May 13 '24 07:05 kratorado