🐛 Describe the bug

bash ./run_gemini.sh

export BS=16
BS=16
export MEMCAP=0
MEMCAP=0
export MODEL=125m
MODEL=125m
export GPUNUM=1
GPUNUM=1
mkdir -p ./logs
export MODLE_PATH=facebook/opt-125m
MODLE_PATH=facebook/opt-125m
torchrun --nproc_per_node 1 --master_port 19198 train_gemini_opt.py --mem_cap 0 --model_name_or_path facebook/opt-125m --batch_size 16
tee ./logs/colo_125m_bs_16_cap_0_gpu_1.log

/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/library.py:130: UserWarning: Overriding a previously registered kernel for the same operator and the same dispatch key operator: aten::index.Tensor(Tensor self, Tensor?[] indices) -> Tensor registered at aten/src/ATen/RegisterSchema.cpp:6 dispatch key: Meta previous kernel: registered at ../aten/src/ATen/functorch/BatchRulesScatterOps.cpp:1053 new kernel: registered at /dev/null:241 (Triggered internally at ../aten/src/ATen/core/dispatch/OperatorEntry.cpp:150.) self.m.impl(name, dispatch_key, fn)

[03/02/23 17:13:37] INFO colossalai - colossalai - INFO: /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/context/parallel_context.py:521 set_device
INFO colossalai - colossalai - INFO: process rank 0 is bound to device 0
[03/02/23 17:13:38] INFO colossalai - colossalai - INFO: /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/context/parallel_context.py:557 set_seed
INFO colossalai - colossalai - INFO: initialized seed on rank 0, numpy: 1024, python random: 1024, ParallelMode.DATA: 1024, ParallelMode.TENSOR: 1024,the default parallel seed is ParallelMode.DATA.
INFO colossalai - colossalai - INFO: /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/initialize.py:116 launch
INFO colossalai - colossalai - INFO: Distributed environment is initialized, data parallel size: 1, pipeline parallel size: 1, tensor parallel size: 1
Downloading (…)lve/main/config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 651/651 [00:00<00:00, 714kB/s] [03/02/23 17:13:40] INFO colossalai - colossalai - INFO: /workspace/nas-data/ColossalAI/examples/language/opt/train_gemini_opt.py:155 main
INFO colossalai - colossalai - INFO: Model config has been created
INFO colossalai - colossalai - INFO: /workspace/nas-data/ColossalAI/examples/language/opt/train_gemini_opt.py:170 main
INFO colossalai - colossalai - INFO: Finetune a pre-trained model
Downloading (…)"pytorch_model.bin";: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 251M/251M [00:04<00:00, 58.5MB/s] Downloading (…)neration_config.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 137/137 [00:00<00:00, 182kB/s] searching chunk configuration is completed in 0.23 s. used number: 119.44 MB, wasted number: 1.50 MB total wasted percentage is 1.24%

No pre-built kernel is found, build and load the cpu_adam kernel during runtime now

Emitting ninja build file /root/.cache/colossalai/torch_extensions/torch1.13_cu11.7/build.ninja... Building extension module cpu_adam... Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N) [1/2] c++ -MMD -MF cpu_adam.o.d -DTORCH_EXTENSION_NAME=cpu_adam -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="_gcc" -DPYBIND11_STDLIB="_libstdcpp" -DPYBIND11_BUILD_ABI="_cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/includes -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -fPIC -std=c++14 -O3 -DVERSION_GE_1_1 -DVERSION_GE_1_3 -DVERSION_GE_1_5 -std=c++14 -lcudart -lcublas -g -Wno-reorder -fopenmp -march=native -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/cpu_adam.cpp -o cpu_adam.o [2/2] c++ cpu_adam.o -shared -L/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/lib -lc10 -ltorch_cpu -ltorch -ltorch_python -o cpu_adam.so Loading extension module cpu_adam... Time to load cpu_adam op: 74.89797854423523 seconds

No pre-built kernel is found, build and load the fused_optim kernel during runtime now

Detected CUDA files, patching ldflags Emitting ninja build file /root/.cache/colossalai/torch_extensions/torch1.13_cu11.7/build.ninja... Building extension module fused_optim... Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N) [1/7] /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_sgd_kernel.cu -o multi_tensor_sgd_kernel.cuda.o FAILED: multi_tensor_sgd_kernel.cuda.o /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_sgd_kernel.cu -o multi_tensor_sgd_kernel.cuda.o nvcc fatal : Unsupported gpu architecture 'compute_86' [2/7] /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_scale_kernel.cu -o multi_tensor_scale_kernel.cuda.o FAILED: multi_tensor_scale_kernel.cuda.o /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_scale_kernel.cu -o multi_tensor_scale_kernel.cuda.o nvcc fatal : Unsupported gpu architecture 'compute_86' [3/7] /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_l2norm_kernel.cu -o multi_tensor_l2norm_kernel.cuda.o FAILED: multi_tensor_l2norm_kernel.cuda.o /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_l2norm_kernel.cu -o multi_tensor_l2norm_kernel.cuda.o nvcc fatal : Unsupported gpu architecture 'compute_86' [4/7] /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_adam.cu -o multi_tensor_adam.cuda.o FAILED: multi_tensor_adam.cuda.o /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_adam.cu -o multi_tensor_adam.cuda.o nvcc fatal : Unsupported gpu architecture 'compute_86' [5/7] /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_lamb.cu -o multi_tensor_lamb.cuda.o FAILED: multi_tensor_lamb.cuda.o /usr/local/cuda/bin/nvcc -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="gcc" -DPYBIND11_STDLIB="libstdcpp" -DPYBIND11_BUILD_ABI="cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -D__CUDA_NO_HALF_OPERATORS -D__CUDA_NO_HALF_CONVERSIONS_ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ --expt-relaxed-constexpr -gencode=arch=compute_86,code=compute_86 -gencode=arch=compute_86,code=sm_86 --compiler-options '-fPIC' -O3 --use_fast_math -lineinfo -gencode arch=compute_60,code=sm_60 -gencode arch=compute_70,code=sm_70 -gencode arch=compute_75,code=sm_75 -gencode arch=compute_80,code=sm_80 -gencode arch=compute_86,code=sm_86 -std=c++14 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/multi_tensor_lamb.cu -o multi_tensor_lamb.cuda.o nvcc fatal : Unsupported gpu architecture 'compute_86' [6/7] c++ -MMD -MF colossal_C_frontend.o.d -DTORCH_EXTENSION_NAME=fused_optim -DTORCH_API_INCLUDE_EXTENSION_H -DPYBIND11_COMPILER_TYPE="_gcc" -DPYBIND11_STDLIB="_libstdcpp" -DPYBIND11_BUILD_ABI="_cxxabi1011" -I/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/kernels/include -I/usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/torch/csrc/api/include -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/TH -isystem /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/include/THC -isystem /usr/local/cuda/include -isystem /workspace/nas-data/miniconda3/envs/gpt/include/python3.10 -D_GLIBCXX_USE_CXX11_ABI=0 -fPIC -std=c++14 -O3 -DVERSION_GE_1_1 -DVERSION_GE_1_3 -DVERSION_GE_1_5 -c /workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/cuda_native/csrc/colossal_C_frontend.cpp -o colossal_C_frontend.o ninja: build stopped: subcommand failed. Traceback (most recent call last): File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/op_builder/builder.py", line 135, in load op_module = self.import_op() File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/op_builder/builder.py", line 118, in import_op return importlib.import_module(self.prebuilt_import_path) File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/importlib/init.py", line 126, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "", line 1050, in _gcd_import File "", line 1027, in _find_and_load File "", line 1004, in _find_and_load_unlocked ModuleNotFoundError: No module named 'colossalai._C.fused_optim'

During handling of the above exception, another exception occurred:

Traceback (most recent call last): File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 1900, in _run_ninja_build subprocess.run( File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/subprocess.py", line 526, in run raise CalledProcessError(retcode, process.args, subprocess.CalledProcessError: Command '['ninja', '-v']' returned non-zero exit status 1.

The above exception was the direct cause of the following exception:

Traceback (most recent call last): File "/workspace/nas-data/ColossalAI/examples/language/opt/train_gemini_opt.py", line 211, in main() File "/workspace/nas-data/ColossalAI/examples/language/opt/train_gemini_opt.py", line 183, in main optimizer = GeminiAdamOptimizer(model, lr=args.learning_rate, initial_scale=214, gpu_margin_mem_ratio=0.0) File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/nn/optimizer/gemini_optimizer.py", line 14, in init optimizer = HybridAdam(model.parameters(), defaults) File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/nn/optimizer/hybrid_adam.py", line 83, in init fused_optim = FusedOptimBuilder().load() File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/colossalai/kernel/op_builder/builder.py", line 157, in load op_module = load(name=self.name, File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 1284, in load return _jit_compile( File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 1508, in _jit_compile _write_ninja_file_and_build_library( File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 1623, in _write_ninja_file_and_build_library _run_ninja_build( File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/utils/cpp_extension.py", line 1916, in _run_ninja_build raise RuntimeError(message) from e RuntimeError: Error building extension 'fused_optim' ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 9162) of binary: /workspace/nas-data/miniconda3/envs/gpt/bin/python Traceback (most recent call last): File "/workspace/nas-data/miniconda3/envs/gpt/bin/torchrun", line 8, in sys.exit(main()) File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/init.py", line 346, in wrapper return f(*args, kwargs) File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/distributed/run.py", line 762, in main run(args) File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/distributed/run.py", line 753, in run elastic_launch( File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 132, in call** return launch_agent(self._config, self._entrypoint, list(args)) File "/workspace/nas-data/miniconda3/envs/gpt/lib/python3.10/site-packages/torch/distributed/launcher/api.py", line 246, in launch_agent raise ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

train_gemini_opt.py FAILED

Failures: <NO_OTHER_FAILURES>

Root Cause (first observed failure): [0]: time : 2023-03-02_17:15:31 host : notebook-u2rxwf-943299-7dc4df46d4-w9pvx.hy rank : 0 (local_rank: 0) exitcode : 1 (pid: 9162) error_file: <N/A> traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html

Environment

No response

Mar 02 '23 09:03 YeHaijia

same problem

Mar 06 '23 07:03 upwindflys

In my case, Solved by add a soft link of libcudart.so. Be sure to find your libcudart.so location

sudo ln -s /opt/miniconda/lib/libcudart.so /usr/lib/x86_64-linux-gnu/libcudart.so

Mar 14 '23 07:03 pecanjk

We have updated a lot. Please check the latest code. This issue was closed due to inactivity. Thanks.

Apr 27 '23 08:04 binmakeswell

[BUG]: run_gemini.sh RuntimeError: Error building extension 'fused_optim'

🐛 Describe the bug

No pre-built kernel is found, build and load the cpu_adam kernel during runtime now

No pre-built kernel is found, build and load the fused_optim kernel during runtime now

train_gemini_opt.py FAILED

Failures: <NO_OTHER_FAILURES>

Environment