FlagAI icon indicating copy to clipboard operation
FlagAI copied to clipboard

bug太多了

Open yuqin11 opened this issue 1 year ago • 15 comments

System Info

flagai 1.7.3 centos

Information

  • [X] The official example scripts
  • [ ] My own modified scripts

Tasks

  • [X] An officially supported task in the examples folder (such as T5/AltCLIP, ...)
  • [ ] My own task or dataset (give details below)

Reproduction

bmtrain_mgpu.sh

修改了脚本中的数据集路径,代码根本运行不起来 参考这个issue https://github.com/FlagAI-Open/FlagAI/issues/401

anaconda3/envs/aquila/lib/python3.9/site-packages/flagai/env_trainer_v1.py", line 201, in initialize_distributed bmt.init_distributed( NameError: name 'bmt' is not defined

Expected behavior

希望能正常微调起来。

yuqin11 avatar Jun 14 '23 13:06 yuqin11

centos7

yuqin11 avatar Jun 14 '23 13:06 yuqin11

envs/aquila/lib/python3.9/site-packages/flagai/model/tools/lora/prepare_lora.py", line 37, in lora_transfer if torch.version >= "2" and sys.platform != "win32": NameError: name 'sys' is not defined

yuqin11 avatar Jun 14 '23 14:06 yuqin11

image aquila/lib/python3.9/site-packages/flagai/model/aquila_model.py", line 159, in forward h = self.tok_embeddings(input_ids)

yuqin11 avatar Jun 14 '23 14:06 yuqin11

首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

BAAI-OpenPlatform avatar Jun 15 '23 02:06 BAAI-OpenPlatform

首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

bmt 已经解决 sys 是代码bug,我本地已经解决 最后一幅图运行的时候模型compile出错辛苦看下。

yuqin11 avatar Jun 15 '23 02:06 yuqin11

单机3卡,这样是否正常呢。到这里就会遇到上面tok_embedding的错误 image image image

yuqin11 avatar Jun 15 '23 02:06 yuqin11

host file image

yuqin11 avatar Jun 15 '23 03:06 yuqin11

下载最新的模型参数又遇到这个错误了,能否给下你们最新模型的能fintune起来的环境详细信息, lib/python3.8/site-packages/bmtrain/parameter.py", line 79, in gather with torch.cuda.stream(config['load_stream']):

CUDA_VISIBLE_DEVICES=4,5,6 TRANSFORMERS_CACHE=${cache_dir} HF_MODULES_CACHE=${cache_dir} python
$SCRIPT_FILE
--not_call_launch
$OPTS

image

yuqin11 avatar Jun 15 '23 03:06 yuqin11

求个解决方案,想要微调起来太难了。

yuqin11 avatar Jun 15 '23 03:06 yuqin11

补充一个信息,lora微调才会这个错误,全参数fintinue会oom

yuqin11 avatar Jun 15 '23 05:06 yuqin11

@BAAI-OpenPlatform 求解

yuqin11 avatar Jun 15 '23 06:06 yuqin11

下载最新的模型参数又遇到这个错误了,能否给下你们最新模型的能fintune起来的环境详细信息, lib/python3.8/site-packages/bmtrain/parameter.py", line 79, in gather with torch.cuda.stream(config['load_stream']):

CUDA_VISIBLE_DEVICES=4,5,6 TRANSFORMERS_CACHE=${cache_dir} HF_MODULES_CACHE=${cache_dir} python $SCRIPT_FILE --not_call_launch $OPTS

image

减少batch-size 可以全参数微调,但是lora似乎不兼容,会报这个错误

yuqin11 avatar Jun 15 '23 07:06 yuqin11

找到原因了: lib/python3.9/site-packages/flagai/model/tools/lora/prepare_lora.py:37 image 注释掉就好了。

yuqin11 avatar Jun 15 '23 08:06 yuqin11

可见这两行代码是真的没有测过。

yuqin11 avatar Jun 15 '23 08:06 yuqin11

之前测试的时候torch版本小于2.0可以通过的。 可以先把lora关掉,正常微调,以免使用方式不对

Anhforth avatar Jun 15 '23 10:06 Anhforth

首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

bmt 已经解决 sys 是代码bug,我本地已经解决 最后一幅图运行的时候模型compile出错辛苦看下。

请问bmt这个问题是怎么解决的,我通过pip install bmtrain安装但是没有解决这个问题

Mandy0016 avatar Jun 21 '23 06:06 Mandy0016

首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决

bmt 已经解决 sys 是代码bug,我本地已经解决 最后一幅图运行的时候模型compile出错辛苦看下。

请问bmt这个问题是怎么解决的,我通过pip install bmtrain安装但是没有解决这个问题

代码报错信息如下:

import bmtrain as bmt
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3/dist-packages/bmtrain/__init__.py", line 2, in <module>
    from .init import init_distributed
  File "/usr/lib/python3/dist-packages/bmtrain/init.py", line 8, in <module>
    from . import nccl
  File "/usr/lib/python3/dist-packages/bmtrain/nccl/__init__.py", line 4, in <module>
    from . import _C as C
ImportError: /usr/lib/python3/dist-packages/bmtrain/nccl/_C.cpython-310-x86_64-linux-gnu.so: undefined symbol: ncclBroadcast

Mandy0016 avatar Jun 21 '23 06:06 Mandy0016

你的torch、cuda版本不匹配,我是在torch2.0安装的,就没有这个问题了。

yuqin11 avatar Jun 21 '23 06:06 yuqin11

先关闭issue。如有问题重新打开或者新建。

ftgreat avatar Jun 21 '23 11:06 ftgreat

好像没有说解决方案就关了?

yuqin11 avatar Jun 21 '23 11:06 yuqin11