sunjinguo92

Results 6 comments of sunjinguo92

> > Please try: --attn_impl flash_attn or --infer_backend vllm --tensor_parallel_size xxx > > 感谢回复,改成 --infer_backend vllm --tensor_parallel_size xxx 可以了。我又遇到一个问题,我在4台A800*8的机器上进行lora微调,报显存溢出,但实际上显存分配,每张卡分配不均,有的卡不到60G。请问可以怎么解决? > > CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 NNODES=$TORCH_NNODES NPROC_PER_NODE=$TORCH_NPROC_PER_NODE NODE_RANK=$TORCH_NODE_RANK MASTER_ADDR=$TORCH_MASTER_ADDR MASTER_PORT=$TORCH_MASTER_PORT MAX_PIXELS=1003520 swift sft...

你好deepseed 版本 0.17.6 slin000111 ***@***.***> 于2025年11月14日周五 16:43写道: > *slin000111* left a comment (modelscope/ms-swift#6555) > > > 4张卡 训练中途报cuda out of memory, 4张卡会存在2张卡显存打满,其他两张空余很多, 目前通过减小batchsize > 方式去控制,请问有什么方法能平衡各张卡的负载? > > nproc_per_node=4 NPROC_PER_NODE=$nproc_per_node swift...

> > 4张卡 训练中途报cuda out of memory, 4张卡会存在2张卡显存打满,其他两张空余很多, 目前通过减小batchsize 方式去控制,请问有什么方法能平衡各张卡的负载? > > nproc_per_node=4 NPROC_PER_NODE=$nproc_per_node swift sft --model models/jina-code-embeddings-1.5b --task_type embedding --model_type qwen2_5 --train_type full --dataset emd_train_data/train_data_v1.0/data_v1.0/train_and_val_data.json --split_dataset_ratio 0.05 --eval_strategy steps...

> CUDA_VISIBLE_DEVICES=2,3,4,5 MAX_PIXELS=117600 swift export --model Qwen2.5-VL-7B --dataset 'listwise_sft_0923-1_2.2w.sampled1000.jsonl' --quant_n_samples 256 --quant_batch_size -1 --max_length 16384 --quant_method awq --quant_bits 4 --output_dir /media/Qwen2.5-VL-7B-1009-4-AWQ > > 我这也是同样的问题, 4卡h800 量化qwen2.5-vl-7b > > > 我换成--device_map...

谢谢 zzc ***@***.***> 于2025年11月12日周三 11:08写道: > *zzc0430* left a comment (modelscope/ms-swift#6119) > > > CUDA_VISIBLE_DEVICES=2,3,4,5 MAX_PIXELS=117600 swift export --model > Qwen2.5-VL-7B --dataset 'listwise_sft_0923-1_2.2w.sampled1000.jsonl' > --quant_n_samples 256 --quant_batch_size -1 --max_length 16384...