FlagAI
FlagAI copied to clipboard
[Question]: 默认参数微调aquila_chat.py: error: unrecognized arguments: --local-rank=1是什么原因呢
Description
aquila_chat.py: error: unrecognized arguments: --local-rank=1
Alternatives
No response
Aquila-chat]$ bash bmtrain_mgpu.sh 这个根本运行不起来,你们真的有测过吗。好多bug。
NameError: name 'bmt' is not defined ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 10404) of binary: anaconda3/envs/aquila/bin/python Traceback (most recent call last):
遇到了相同的问题,但不是解决不了,不是一句bug太多就可以吐槽的,可能楼主和我一样用的都是比较新的版本,包括python和torch的版本
第一个问题localrank
的可能是版本问题,传给aquila_chat.py
的是--local-rank=1,但是解析代码中只认--local_rank=1, 这个可以自己改,见 https://github.com/FlagAI-Open/FlagAI/issues/336#issuecomment-1590618154
第二个问题可能是yaml的版本问题,5.1后load方法和load_all方法都必须加个loader yaml.load_all(file_data, yaml.FullLoader)
,见 https://github.com/yaml/pyyaml/wiki/PyYAML-yaml.load(input)-Deprecation
你说的对,能解决,不然我怎么运行到后面的。但不可否认兼容性确实不太好。
bmt的问题解决了吗,我直接按照readme:
git clone https://github.com/OpenBMB/BMTrain
cd BMTrain
python setup.py install
安装的,目前是可以进行预训练的
解决了,但是后面跑不起来的,参考403这个isssue
我也遇到了这个问题,torch2.0下torchrun启动,是不是把local_rank 换成int(os.environ["LOCAL_RANK"]), 但还是有其他的问题
第一个问题localrank的可能是版本问题,传给aquila_chat.py的是--local-rank=1,但是解析代码中只认--local_rank=1, 这个可以自己改,见 https://github.com/FlagAI-Open/FlagAI/issues/336#issuecomment-1590618154 你该LOCAL_RANK他们这个代码是不兼容的,可以吧这个env_args的参数--local_rank改成 --local-rank
不过怎么折腾都没用,torch2.0 就算跑成功了,后面你用AutoLoader加载微调后的模型的时候一样会失败,感觉他们这个还不成熟,我全参数微调和lora微调都微调完了,无法加载的。
先关闭,如有问题重新打开issue,谢谢