ms-swift icon indicating copy to clipboard operation
ms-swift copied to clipboard

奇怪的out of memory报错

Open jfy1016 opened this issue 8 months ago • 12 comments

代码没有变化,用数据量较少的数据集就可以正常训练,用数据量较多的数据集就报错out of memory,两个数据集除了数据量不同,没有任何差别。为什么?

jfy1016 avatar Apr 23 '25 06:04 jfy1016

Image这是数据量较多的数据集报错

jfy1016 avatar Apr 23 '25 06:04 jfy1016

我也遇到了相同的问题,不知道您是否解决了?

xh-2000 avatar Apr 23 '25 11:04 xh-2000

我也遇到了相同的问题,不知道您是否解决了?

没有解决

jfy1016 avatar Apr 24 '25 01:04 jfy1016

@Jintao-Huang 麻烦您看下哈,我发现只有 packing 的时候会内存 OOM

Xu-Chen avatar Apr 24 '25 13:04 Xu-Chen

@Jintao-Huang 麻烦您看下哈,我发现只有 packing 的时候会内存 OOM

多模态模型嘛,你看看有没有--streaming true

Jintao-Huang avatar Apr 24 '25 14:04 Jintao-Huang

@Jintao-Huang 麻烦您看下哈,我发现只有 packing 的时候会内存 OOM

多模态模型嘛,你看看有没有--streaming true

不是多模态模型,没用流式加载,在packing快结束的时候报oom

Xu-Chen avatar Apr 24 '25 14:04 Xu-Chen

显存还是内存

Jintao-Huang avatar Apr 24 '25 14:04 Jintao-Huang

显存还是内存

内存oom

Xu-Chen avatar Apr 24 '25 14:04 Xu-Chen

加一下 --streaming true

Jintao-Huang avatar Apr 24 '25 14:04 Jintao-Huang

@Jintao-Huang 今早看训练发现训练了200多步后又报错了,问题还是没有解决

Image

jfy1016 avatar Apr 25 '25 01:04 jfy1016

CUDA_VISIBLE_DEVICES=0,1,2
MAX_PIXELS=1003520
swift sft
--model /home/jdn/.cache/modelscope/hub/models/deepseek-ai/deepseek-vl2-tiny
--dataset /home/jdn/deepseek/save_json/xunlian_CT_and_Xray.json
--streaming true --train_type lora
--torch_dtype float16
--num_train_epochs 5
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--learning_rate 1e-4
--lora_rank 8
--lora_alpha 32
--target_modules all-linear
--freeze_vit true
--gradient_accumulation_steps 16
--eval_steps 50
--save_steps 50
--save_total_limit 5
--logging_steps 5
--max_length 2048
--output_dir /home/jdn/deepseek/output
--warmup_ratio 0.05
--lazy_tokenize true
--dataloader_num_workers 0 \

加上--streaming true后报错

Image如果不支持bf16怎么办

jfy1016 avatar Apr 25 '25 01:04 jfy1016

Image 我是微调大概1500-2000轮时出现killed,本来3w条训练数据时没问题,增加到6w条就会这样,这是bug嘛?

xh-2000 avatar Apr 26 '25 02:04 xh-2000

Image 我是微调大概1500-2000轮时出现killed,本来3w条训练数据时没问题,增加到6w条就会这样,这是bug嘛?

这是不是内存爆掉了

zideliu avatar May 13 '25 06:05 zideliu

Image 我是微调大概1500-2000轮时出现killed,本来3w条训练数据时没问题,增加到6w条就会这样,这是bug嘛?

这是不是内存爆掉了

hello,这个问题后来解决了吗

MooMoo-Yang avatar Jun 11 '25 11:06 MooMoo-Yang

swift3.5 release应该修复了

Jintao-Huang avatar Jun 11 '25 12:06 Jintao-Huang