sunjinguo92
Results
1
issues of
sunjinguo92
4张卡 训练中途报cuda out of memory, 4张卡会存在2张卡显存打满,其他两张空余很多, 目前通过减小batchsize 方式去控制,请问有什么方法能平衡各张卡的负载? nproc_per_node=4 NPROC_PER_NODE=$nproc_per_node \ swift sft \ --model models/jina-code-embeddings-1.5b \ --task_type embedding \ --model_type qwen2_5 \ --train_type full \ --dataset emd_train_data/train_data_v1.0/data_v1.0/train_and_val_data.json \ --split_dataset_ratio...