FlagAI icon indicating copy to clipboard operation
FlagAI copied to clipboard

[Question]: 默认参数微调aquila_chat.py: error: unrecognized arguments: --local-rank=1是什么原因呢

Open yuqin11 opened this issue 1 year ago • 9 comments

Description

aquila_chat.py: error: unrecognized arguments: --local-rank=1

image

Alternatives

No response

yuqin11 avatar Jun 14 '23 12:06 yuqin11

image 这里修改兼容后遇到: Aquila/Aquila-chat/aquila_chat.py", line 47, in data = yaml.load_all(file_data) TypeError: load_all() missing 1 required positional argument: 'Loader'

yuqin11 avatar Jun 14 '23 13:06 yuqin11

Aquila-chat]$ bash bmtrain_mgpu.sh 这个根本运行不起来,你们真的有测过吗。好多bug。

yuqin11 avatar Jun 14 '23 13:06 yuqin11

NameError: name 'bmt' is not defined ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 10404) of binary: anaconda3/envs/aquila/bin/python Traceback (most recent call last):

yuqin11 avatar Jun 14 '23 13:06 yuqin11

遇到了相同的问题,但不是解决不了,不是一句bug太多就可以吐槽的,可能楼主和我一样用的都是比较新的版本,包括python和torch的版本

第一个问题localrank的可能是版本问题,传给aquila_chat.py的是--local-rank=1,但是解析代码中只认--local_rank=1, 这个可以自己改,见 https://github.com/FlagAI-Open/FlagAI/issues/336#issuecomment-1590618154 第二个问题可能是yaml的版本问题,5.1后load方法和load_all方法都必须加个loader yaml.load_all(file_data, yaml.FullLoader),见 https://github.com/yaml/pyyaml/wiki/PyYAML-yaml.load(input)-Deprecation

csyourui avatar Jun 15 '23 01:06 csyourui

你说的对,能解决,不然我怎么运行到后面的。但不可否认兼容性确实不太好。

yuqin11 avatar Jun 15 '23 02:06 yuqin11

bmt的问题解决了吗,我直接按照readme:

git clone https://github.com/OpenBMB/BMTrain
cd BMTrain
python setup.py install

安装的,目前是可以进行预训练的

csyourui avatar Jun 15 '23 02:06 csyourui

解决了,但是后面跑不起来的,参考403这个isssue

yuqin11 avatar Jun 15 '23 02:06 yuqin11

我也遇到了这个问题,torch2.0下torchrun启动,是不是把local_rank 换成int(os.environ["LOCAL_RANK"]), 但还是有其他的问题

yangkai798 avatar Jun 16 '23 03:06 yangkai798

第一个问题localrank的可能是版本问题,传给aquila_chat.py的是--local-rank=1,但是解析代码中只认--local_rank=1, 这个可以自己改,见 https://github.com/FlagAI-Open/FlagAI/issues/336#issuecomment-1590618154 你该LOCAL_RANK他们这个代码是不兼容的,可以吧这个env_args的参数--local_rank改成 --local-rank

不过怎么折腾都没用,torch2.0 就算跑成功了,后面你用AutoLoader加载微调后的模型的时候一样会失败,感觉他们这个还不成熟,我全参数微调和lora微调都微调完了,无法加载的。

yuqin11 avatar Jun 16 '23 04:06 yuqin11

先关闭,如有问题重新打开issue,谢谢

ftgreat avatar Jun 22 '23 12:06 ftgreat