FlagAI
FlagAI copied to clipboard
bug太多了
System Info
flagai 1.7.3 centos
Information
- [X] The official example scripts
- [ ] My own modified scripts
Tasks
- [X] An officially supported task in the
examples
folder (such as T5/AltCLIP, ...) - [ ] My own task or dataset (give details below)
Reproduction
修改了脚本中的数据集路径,代码根本运行不起来 参考这个issue https://github.com/FlagAI-Open/FlagAI/issues/401
anaconda3/envs/aquila/lib/python3.9/site-packages/flagai/env_trainer_v1.py", line 201, in initialize_distributed bmt.init_distributed( NameError: name 'bmt' is not defined
Expected behavior
希望能正常微调起来。
centos7
envs/aquila/lib/python3.9/site-packages/flagai/model/tools/lora/prepare_lora.py", line 37, in lora_transfer if torch.version >= "2" and sys.platform != "win32": NameError: name 'sys' is not defined
首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决
首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决
bmt 已经解决 sys 是代码bug,我本地已经解决 最后一幅图运行的时候模型compile出错辛苦看下。
单机3卡,这样是否正常呢。到这里就会遇到上面tok_embedding的错误
host file
下载最新的模型参数又遇到这个错误了,能否给下你们最新模型的能fintune起来的环境详细信息, lib/python3.8/site-packages/bmtrain/parameter.py", line 79, in gather with torch.cuda.stream(config['load_stream']):
CUDA_VISIBLE_DEVICES=4,5,6 TRANSFORMERS_CACHE=${cache_dir} HF_MODULES_CACHE=${cache_dir} python
$SCRIPT_FILE
--not_call_launch
$OPTS
求个解决方案,想要微调起来太难了。
补充一个信息,lora微调才会这个错误,全参数fintinue会oom
@BAAI-OpenPlatform 求解
下载最新的模型参数又遇到这个错误了,能否给下你们最新模型的能fintune起来的环境详细信息, lib/python3.8/site-packages/bmtrain/parameter.py", line 79, in gather with torch.cuda.stream(config['load_stream']):
CUDA_VISIBLE_DEVICES=4,5,6 TRANSFORMERS_CACHE=${cache_dir} HF_MODULES_CACHE=${cache_dir} python $SCRIPT_FILE --not_call_launch $OPTS
![]()
减少batch-size 可以全参数微调,但是lora似乎不兼容,会报这个错误
找到原因了:
lib/python3.9/site-packages/flagai/model/tools/lora/prepare_lora.py:37
注释掉就好了。
可见这两行代码是真的没有测过。
之前测试的时候torch版本小于2.0可以通过的。 可以先把lora关掉,正常微调,以免使用方式不对
首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决
bmt 已经解决 sys 是代码bug,我本地已经解决 最后一幅图运行的时候模型compile出错辛苦看下。
请问bmt这个问题是怎么解决的,我通过pip install bmtrain安装但是没有解决这个问题
首先 可以实时import bmtrain as bmt看看本地bmtrain有没有正确安装 NameError: name 'sys' is not defined 已解决
bmt 已经解决 sys 是代码bug,我本地已经解决 最后一幅图运行的时候模型compile出错辛苦看下。
请问bmt这个问题是怎么解决的,我通过pip install bmtrain安装但是没有解决这个问题
代码报错信息如下:
import bmtrain as bmt
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python3/dist-packages/bmtrain/__init__.py", line 2, in <module>
from .init import init_distributed
File "/usr/lib/python3/dist-packages/bmtrain/init.py", line 8, in <module>
from . import nccl
File "/usr/lib/python3/dist-packages/bmtrain/nccl/__init__.py", line 4, in <module>
from . import _C as C
ImportError: /usr/lib/python3/dist-packages/bmtrain/nccl/_C.cpython-310-x86_64-linux-gnu.so: undefined symbol: ncclBroadcast
你的torch、cuda版本不匹配,我是在torch2.0安装的,就没有这个问题了。
先关闭issue。如有问题重新打开或者新建。
好像没有说解决方案就关了?