Firefly
Firefly copied to clipboard
使用deepspeed训练时报错train.py: error: unrecognized arguments: --local_rank=1
运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错
deepspeed的设置文件ds_z3_config.json 项目里未见使用?
补充问题:deepspeed如何结合qlora使用?
运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错
deepspeed的设置文件ds_z3_config.json 项目里未见使用?
感谢提醒,train_args/sft.json中忘记添加deepspeed的配置路径,已经添加了,可以再试一下。如果有问题,欢迎补充: https://github.com/yangjianxin1/Firefly/blob/master/train_args/sft.json#L4
补充问题:deepspeed如何结合qlora使用?
目前还未尝试deepspeed+qlora,我们会进行尝试,看是否可行
运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错
deepspeed的设置文件ds_z3_config.json 项目里未见使用?
train.py: error: unrecognized arguments: --local_rank=1
我这里也会报这个错,请问你那里解决了吗?
运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错 deepspeed的设置文件ds_z3_config.json 项目里未见使用?
train.py: error: unrecognized arguments: --local_rank=1
我这里也会报这个错,请问你那里解决了吗?
恩,应该是torch版本的问题,我的版本太高了(2.0),不是按照文档里面装的(1.13)
运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错 deepspeed的设置文件ds_z3_config.json 项目里未见使用?
train.py: error: unrecognized arguments: --local_rank=1
我这里也会报这个错,请问你那里解决了吗?恩,应该是torch版本的问题,我的版本太高了(2.0),不是按照文档里面装的(1.13)
应该在parser处再添加一个local_rank, 因为deepspeed起任务的时候会给每个进程加上一个local_rank的超参。 parser.add_argument("--local_rank", type=int, default=0)
确实,我也是加了这一句可以运行了😂
nihaoUCAS @.***>于2023年6月25日 周日19:14写道:
运行的命令是deepspeed --num_gpus=2 train.py --train_args_file train_args/sft.json时报错 deepspeed的设置文件ds_z3_config.json 项目里未见使用?
train.py: error: unrecognized arguments: --local_rank=1 我这里也会报这个错,请问你那里解决了吗?
恩,应该是torch版本的问题,我的版本太高了(2.0),不是按照文档里面装的(1.13)
应该在parser处再添加一个local_rank, 因为deepspeed起任务的时候会给每个进程加上一个local_rank的超参。 parser.add_argument("--local_rank", type=int, default=0)
— Reply to this email directly, view it on GitHub https://github.com/yangjianxin1/Firefly/issues/30#issuecomment-1606041893, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABCFXRKDF7Q3SUT5N7LGTY3XNAMRPANCNFSM6AAAAAAZNCIDZQ . You are receiving this because you commented.Message ID: @.***>
加了以后又碰到NotImplementedError: Cannot copy out of meta tensor; no data! 求教啊, @yangjianxin1
加了以后又碰到NotImplementedError: Cannot copy out of meta tensor; no data! 求教啊, @yangjianxin1
same issue
同样的问题,1.13的也是
torch版本2.0.1, 同样的问题,请问各位大佬解决了么?