FlagAI bug太多了

System Info

flagai 1.7.3 centos

Information

[X] The official example scripts
[ ] My own modified scripts

Tasks

[X] An officially supported task in the examples folder (such as T5/AltCLIP, ...)
[ ] My own task or dataset (give details below)

Reproduction

bmtrain_mgpu.sh

修改了脚本中的数据集路径，代码根本运行不起来参考这个issue https://github.com/FlagAI-Open/FlagAI/issues/401

anaconda3/envs/aquila/lib/python3.9/site-packages/flagai/env_trainer_v1.py", line 201, in initialize_distributed bmt.init_distributed( NameError: name 'bmt' is not defined

Expected behavior

希望能正常微调起来。

Jun 14 '23 13:06 yuqin11

centos7

Jun 14 '23 13:06 yuqin11

envs/aquila/lib/python3.9/site-packages/flagai/model/tools/lora/prepare_lora.py", line 37, in lora_transfer if torch.version >= "2" and sys.platform != "win32": NameError: name 'sys' is not defined

Jun 14 '23 14:06 yuqin11

aquila/lib/python3.9/site-packages/flagai/model/aquila_model.py", line 159, in forward h = self.tok_embeddings(input_ids)

Jun 14 '23 14:06 yuqin11

首先可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

Jun 15 '23 02:06 BAAI-OpenPlatform

首先可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

bmt 已经解决 sys 是代码bug，我本地已经解决最后一幅图运行的时候模型compile出错辛苦看下。

Jun 15 '23 02:06 yuqin11

单机3卡，这样是否正常呢。到这里就会遇到上面tok_embedding的错误

Jun 15 '23 02:06 yuqin11

host file

Jun 15 '23 03:06 yuqin11

下载最新的模型参数又遇到这个错误了，能否给下你们最新模型的能fintune起来的环境详细信息， lib/python3.8/site-packages/bmtrain/parameter.py", line 79, in gather with torch.cuda.stream(config['load_stream']):

CUDA_VISIBLE_DEVICES=4,5,6 TRANSFORMERS_CACHE=${cache_dir} HF_MODULES_CACHE=${cache_dir} python
$SCRIPT_FILE
--not_call_launch
$OPTS

Jun 15 '23 03:06 yuqin11

求个解决方案，想要微调起来太难了。

Jun 15 '23 03:06 yuqin11

补充一个信息，lora微调才会这个错误，全参数fintinue会oom

Jun 15 '23 05:06 yuqin11

@BAAI-OpenPlatform 求解

Jun 15 '23 06:06 yuqin11

下载最新的模型参数又遇到这个错误了，能否给下你们最新模型的能fintune起来的环境详细信息， lib/python3.8/site-packages/bmtrain/parameter.py", line 79, in gather with torch.cuda.stream(config['load_stream']):

CUDA_VISIBLE_DEVICES=4,5,6 TRANSFORMERS_CACHE=${cache_dir} HF_MODULES_CACHE=${cache_dir} python $SCRIPT_FILE --not_call_launch $OPTS

减少batch-size 可以全参数微调，但是lora似乎不兼容，会报这个错误

Jun 15 '23 07:06 yuqin11

找到原因了： lib/python3.9/site-packages/flagai/model/tools/lora/prepare_lora.py:37 注释掉就好了。

Jun 15 '23 08:06 yuqin11

可见这两行代码是真的没有测过。

Jun 15 '23 08:06 yuqin11

之前测试的时候torch版本小于2.0可以通过的。可以先把lora关掉，正常微调，以免使用方式不对

Jun 15 '23 10:06 Anhforth

首先可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

bmt 已经解决 sys 是代码bug，我本地已经解决最后一幅图运行的时候模型compile出错辛苦看下。

请问bmt这个问题是怎么解决的，我通过pip install bmtrain安装但是没有解决这个问题

Jun 21 '23 06:06 Mandy0016

首先可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

bmt 已经解决 sys 是代码bug，我本地已经解决最后一幅图运行的时候模型compile出错辛苦看下。

请问bmt这个问题是怎么解决的，我通过pip install bmtrain安装但是没有解决这个问题

代码报错信息如下：

import bmtrain as bmt
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3/dist-packages/bmtrain/__init__.py", line 2, in <module>
    from .init import init_distributed
  File "/usr/lib/python3/dist-packages/bmtrain/init.py", line 8, in <module>
    from . import nccl
  File "/usr/lib/python3/dist-packages/bmtrain/nccl/__init__.py", line 4, in <module>
    from . import _C as C
ImportError: /usr/lib/python3/dist-packages/bmtrain/nccl/_C.cpython-310-x86_64-linux-gnu.so: undefined symbol: ncclBroadcast

Jun 21 '23 06:06 Mandy0016

你的torch、cuda版本不匹配，我是在torch2.0安装的，就没有这个问题了。

Jun 21 '23 06:06 yuqin11

先关闭issue。如有问题重新打开或者新建。

Jun 21 '23 11:06 ftgreat

好像没有说解决方案就关了？

Jun 21 '23 11:06 yuqin11