ColossalAI-Examples icon indicating copy to clipboard operation
ColossalAI-Examples copied to clipboard

运行GPT2案例出现RuntimeError: Could not find 'SLURM_PROCID'问题,是必须要装SLURM环境?

Open ZXM1063694570 opened this issue 3 years ago • 1 comments
trafficstars

🐛 Describe the bug

使用了提供的Dockerhub上的镜像0.1.7,但是在运行GPT案例时候出现RuntimeError: Could not find 'SLURM_PROCID'问题,并且在0.1.8镜像版本中也是如此 M4QKMAI76Q~U952 KAY5Y T4GKG9P$KSS$XIGXL7{EVAM 这是我的run脚本: 260CY7X5}DOF1363S{4PJ`1 其中我的gpt2_configs配置换了其他的配置也出现同样的问题

Environment

docker pull hpcaitech/colossalai:0.1.7 & 0.1.8 pip install transformers pip install titans

8张A100

ZXM1063694570 avatar Jul 26 '22 10:07 ZXM1063694570

加一下 --from_torch在启动命令args里。没加默认用slurm启动

feifeibear avatar Jul 27 '22 01:07 feifeibear