ms-swift icon indicating copy to clipboard operation
ms-swift copied to clipboard

端口监听错误

Open adoptedirelia opened this issue 8 months ago • 2 comments

我在运行swift sft的时候,在训练的时候报错

RuntimeError: The server socket has failed to listen on any local network address. port: 29500, useIpv6: 0, code: -98, name: EADDRINUSE, message: address already in use

请问有什么解决办法嘛 我已经尝试过

export MASTER_PORT=29501

但是报错的时候还是会显示port错误在29500

adoptedirelia avatar Apr 24 '25 19:04 adoptedirelia

有shell不

Jintao-Huang avatar Apr 25 '25 01:04 Jintao-Huang

有shell不

CUDA_VISIBLE_DEVICES=0
swift sft
--model LLM-Research/Meta-Llama-3.1-8B
--train_type lora
--dataset ./DPO_data/2WikimhQA_sft.jsonl
--torch_dtype bfloat16
--num_train_epochs 5
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--learning_rate 1e-4
--lora_rank 8
--lora_alpha 32
--target_modules all-linear
--gradient_accumulation_steps 4
--eval_steps 100
--save_steps 100
--save_total_limit 2
--logging_steps 5
--max_length 10240
--output_dir output_model
--warmup_ratio 0.05
--dataloader_num_workers 4
--deepspeed zero2
--dataset_num_proc 4

数据集的格式检查过是正确的

adoptedirelia avatar Apr 25 '25 02:04 adoptedirelia

你看看是不是有些脏环境变量存在

比如:NPROC_PER_NODE,RANK, LOCA_RANK

Jintao-Huang avatar May 23 '25 08:05 Jintao-Huang

有shell不

CUDA_VISIBLE_DEVICES=0 swift sft --model LLM-Research/Meta-Llama-3.1-8B --train_type lora --dataset ./DPO_data/2WikimhQA_sft.jsonl --torch_dtype bfloat16 --num_train_epochs 5 --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --learning_rate 1e-4 --lora_rank 8 --lora_alpha 32 --target_modules all-linear --gradient_accumulation_steps 4 --eval_steps 100 --save_steps 100 --save_total_limit 2 --logging_steps 5 --max_length 10240 --output_dir output_model --warmup_ratio 0.05 --dataloader_num_workers 4 --deepspeed zero2 --dataset_num_proc 4

数据集的格式检查过是正确的

MASTER_PORT=29501 CUDA_VISIBLE_DEVICES=0 swift sft --model LLM-Research/Meta-Llama-3.1-8B --train_type lora --dataset ./DPO_data/2WikimhQA_sft.jsonl --torch_dtype bfloat16 --num_train_epochs 5 --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --learning_rate 1e-4 --lora_rank 8 --lora_alpha 32 --target_modules all-linear --gradient_accumulation_steps 4 --eval_steps 100 --save_steps 100 --save_total_limit 2 --logging_steps 5 --max_length 10240 --output_dir output_model --warmup_ratio 0.05 --dataloader_num_workers 4 --deepspeed zero2 --dataset_num_proc 4

AHFJE avatar Jun 15 '25 08:06 AHFJE

我在运行swift sft的时候,在训练的时候报错

RuntimeError: The server socket has failed to listen on any local network address. port: 29500, useIpv6: 0, code: -98, name: EADDRINUSE, message: address already in use

请问有什么解决办法嘛 我已经尝试过

export MASTER_PORT=29501

但是报错的时候还是会显示port错误在29500

再改一下MASTER_PORT试试

slin000111 avatar Aug 15 '25 03:08 slin000111

请问怎么解决的?

xukai8 avatar Nov 04 '25 07:11 xukai8