ms-swift 奇怪的out of memory报错

代码没有变化，用数据量较少的数据集就可以正常训练，用数据量较多的数据集就报错out of memory,两个数据集除了数据量不同，没有任何差别。为什么？

Apr 23 '25 06:04 jfy1016

这是数据量较多的数据集报错

Apr 23 '25 06:04 jfy1016

我也遇到了相同的问题，不知道您是否解决了？

Apr 23 '25 11:04 xh-2000

我也遇到了相同的问题，不知道您是否解决了？

没有解决

Apr 24 '25 01:04 jfy1016

@Jintao-Huang 麻烦您看下哈，我发现只有 packing 的时候会内存 OOM

Apr 24 '25 13:04 Xu-Chen

@Jintao-Huang 麻烦您看下哈，我发现只有 packing 的时候会内存 OOM

多模态模型嘛，你看看有没有--streaming true

Apr 24 '25 14:04 Jintao-Huang

@Jintao-Huang 麻烦您看下哈，我发现只有 packing 的时候会内存 OOM

多模态模型嘛，你看看有没有--streaming true

不是多模态模型，没用流式加载，在packing快结束的时候报oom

Apr 24 '25 14:04 Xu-Chen

显存还是内存

Apr 24 '25 14:04 Jintao-Huang

显存还是内存

内存oom

Apr 24 '25 14:04 Xu-Chen

加一下 --streaming true

Apr 24 '25 14:04 Jintao-Huang

@Jintao-Huang 今早看训练发现训练了200多步后又报错了，问题还是没有解决

Apr 25 '25 01:04 jfy1016

CUDA_VISIBLE_DEVICES=0,1,2
MAX_PIXELS=1003520
swift sft
--model /home/jdn/.cache/modelscope/hub/models/deepseek-ai/deepseek-vl2-tiny
--dataset /home/jdn/deepseek/save_json/xunlian_CT_and_Xray.json
--streaming true --train_type lora
--torch_dtype float16
--num_train_epochs 5
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--learning_rate 1e-4
--lora_rank 8
--lora_alpha 32
--target_modules all-linear
--freeze_vit true
--gradient_accumulation_steps 16
--eval_steps 50
--save_steps 50
--save_total_limit 5
--logging_steps 5
--max_length 2048
--output_dir /home/jdn/deepseek/output
--warmup_ratio 0.05
--lazy_tokenize true
--dataloader_num_workers 0 \