Firefly icon indicating copy to clipboard operation
Firefly copied to clipboard

使用deepspeed训练时报错train.py: error: unrecognized arguments: --local_rank=1

Open Alaya-Con opened this issue 1 year ago • 11 comments

运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错

deepspeed的设置文件ds_z3_config.json 项目里未见使用?

Alaya-Con avatar Jun 20 '23 10:06 Alaya-Con

补充问题:deepspeed如何结合qlora使用?

Alaya-Con avatar Jun 20 '23 10:06 Alaya-Con

运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错

deepspeed的设置文件ds_z3_config.json 项目里未见使用?

感谢提醒,train_args/sft.json中忘记添加deepspeed的配置路径,已经添加了,可以再试一下。如果有问题,欢迎补充: https://github.com/yangjianxin1/Firefly/blob/master/train_args/sft.json#L4

yangjianxin1 avatar Jun 20 '23 16:06 yangjianxin1

补充问题:deepspeed如何结合qlora使用?

目前还未尝试deepspeed+qlora,我们会进行尝试,看是否可行

yangjianxin1 avatar Jun 20 '23 16:06 yangjianxin1

运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错

deepspeed的设置文件ds_z3_config.json 项目里未见使用?

train.py: error: unrecognized arguments: --local_rank=1

我这里也会报这个错,请问你那里解决了吗?

createmomo avatar Jun 21 '23 17:06 createmomo

运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错 deepspeed的设置文件ds_z3_config.json 项目里未见使用?

train.py: error: unrecognized arguments: --local_rank=1

我这里也会报这个错,请问你那里解决了吗?

恩,应该是torch版本的问题,我的版本太高了(2.0),不是按照文档里面装的(1.13)

createmomo avatar Jun 21 '23 17:06 createmomo

运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错 deepspeed的设置文件ds_z3_config.json 项目里未见使用?

train.py: error: unrecognized arguments: --local_rank=1 我这里也会报这个错,请问你那里解决了吗?

恩,应该是torch版本的问题,我的版本太高了(2.0),不是按照文档里面装的(1.13)

应该在parser处再添加一个local_rank, 因为deepspeed起任务的时候会给每个进程加上一个local_rank的超参。 parser.add_argument("--local_rank", type=int, default=0)

NiHaoUCAS avatar Jun 25 '23 11:06 NiHaoUCAS

确实,我也是加了这一句可以运行了😂

nihaoUCAS @.***>于2023年6月25日 周日19:14写道:

运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错 deepspeed的设置文件ds_z3_config.json 项目里未见使用?

train.py: error: unrecognized arguments: --local_rank=1 我这里也会报这个错,请问你那里解决了吗?

恩,应该是torch版本的问题,我的版本太高了(2.0),不是按照文档里面装的(1.13)

应该在parser处再添加一个local_rank, 因为deepspeed起任务的时候会给每个进程加上一个local_rank的超参。 parser.add_argument("--local_rank", type=int, default=0)

— Reply to this email directly, view it on GitHub https://github.com/yangjianxin1/Firefly/issues/30#issuecomment-1606041893, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABCFXRKDF7Q3SUT5N7LGTY3XNAMRPANCNFSM6AAAAAAZNCIDZQ . You are receiving this because you commented.Message ID: @.***>

createmomo avatar Jun 25 '23 11:06 createmomo

加了以后又碰到NotImplementedError: Cannot copy out of meta tensor; no data! 求教啊, @yangjianxin1

ldxbaby756 avatar Aug 05 '23 03:08 ldxbaby756

加了以后又碰到NotImplementedError: Cannot copy out of meta tensor; no data! 求教啊, @yangjianxin1

same issue

Modas-Li avatar Aug 17 '23 13:08 Modas-Li

同样的问题,1.13的也是

cy565025164 avatar Sep 08 '23 03:09 cy565025164

torch版本2.0.1, 同样的问题,请问各位大佬解决了么?

qazwsx042 avatar Nov 01 '23 01:11 qazwsx042