在运行微调脚本报错 torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0
bash run.sh
下面是运行脚本内容
#!/usr/bin/env bash
export OMP_NUM_THREADS=2
torchrun --nproc_per_node 2
-m .run
--output_dir ../models/bge-large-zh-medical-v2
--model_name_or_path ../BAAI/bge-large-zh-v1.5
--train_data ../data/toy_finetune_data.jsonl
--learning_rate 1e-5
--fp16
--num_train_epochs 1
--per_device_train_batch_size 1
--dataloader_drop_last True
--normlized True
--temperature 0.02
--query_max_len 64
--passage_max_len 256
--train_group_size 2
--negatives_cross_device False
--logging_steps 10
--query_instruction_for_retrieval ""
但运行报错 torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 33189)
原来是运行地方错了,需要在根目录下进行微调运行 sh 文件
行地方错了,需要在根目录下进行微调运行 sh 文件
你好我也遇到了同样的情况,请问在根目录下微调你具体指的是什么呢,十分感谢!
@MrRexy-Ling , 就是把微调训练的指令放到 shell脚本里,用bash来启动 run.py, 因为需要开启多个进程,所以一般用 .sh文件来执行模型的训练启动,截图上面就是我的 run.sh的内容,
@staoxiao , finetine 代码 是可以用多个gpu进行训练的吗?
@MrRexy-Ling , 就是把微调训练的指令放到 shell脚本里,用bash来启动 run.py, 因为需要开启多个进程,所以一般用 .sh文件来执行模型的训练启动,截图上面就是我的 run.sh的内容,
多谢,问题解决了
@staoxiao , finetine 代码 是可以用多个gpu进行训练的吗?
支持的
@MrRexy-Ling , 就是把微调训练的指令放到 shell脚本里,用bash来启动 run.py, 因为需要开启多个进程,所以一般用 .sh文件来执行模型的训练启动,截图上面就是我的 run.sh的内容,
多谢,问题解决了
你好,我现在复现一个程序,原程序用bash启动,原来的程序用8个GPU,我用一个,好像也出现了这个问题
原来是运行地方错了,需要在根目录下进行微调运行 sh 文件 必须要在根目录下运行对吗
@MrRexy-Ling , 就是把微调训练的指令放到 shell脚本里,用bash来启动 run.py, 因为需要开启多个进程,所以一般用 .sh文件来执行模型的训练启动,截图上面就是我的 run.sh的内容,
多谢,问题解决了
你好,我现在复现一个程序,原程序用bash启动,原来的程序用8个GPU,我用一个,好像也出现了这个问题
你好,你最后.sh 文件里指定GPU个数了吗,通常情况下八卡的DDP用单卡是可以运行的,就是world rank一直默认为0,你可以检查一下一下程序里分布式训练的部分
作者你好,请问是这样用bash来运行吗?我这样还是报了和你一样的错误。
@MrRexy-Ling , 就是把微调训练的指令放到 shell脚本里,用bash来启动 run.py, 因为需要开启多个进程,所以一般用 .sh文件来执行模型的训练启动,截图上面就是我的 run.sh的内容,
这是我的运行指令。
作者你好,请问是这样用bash来运行吗?我这样还是报了和你一样的错误。
@MrRexy-Ling , 就是把微调训练的指令放到 shell脚本里,用bash来启动 run.py, 因为需要开启多个进程,所以一般用 .sh文件来执行模型的训练启动,截图上面就是我的 run.sh的内容,
@MrRexy-Ling , 就是把微调训练的指令放到 shell脚本里,用bash来启动 run.py, 因为需要开启多个进程,所以一般用 .sh文件来执行模型的训练启动,截图上面就是我的 run.sh的内容,
我将运行的指令放到shell脚本运行,依然报这种错误,怎么解决呢?
作者你好,请问是这样用bash来运行吗?我这样还是报了和你一样的错误。