GLM-130B icon indicating copy to clipboard operation
GLM-130B copied to clipboard

torch run的问题

Open GXKIM opened this issue 1 year ago • 4 comments

问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教

GXKIM avatar Jun 02 '23 10:06 GXKIM

问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教

你是在 v100 机器上运行的吗? v100 需要安装 torchrun

pip install bminf

yihuaxiang avatar Jun 06 '23 15:06 yihuaxiang

问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教

你是在 v100 机器上运行的吗? v100 需要安装 torchrun

pip install bminf

A100

GXKIM avatar Jun 07 '23 08:06 GXKIM

问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教

你是在 v100 机器上运行的吗? v100 需要安装 torchrun

pip install bminf

执行脚本的时候报错,我看脚本里确实使用了torch run scripts/generate.sh 这个脚本

GXKIM avatar Jun 07 '23 08:06 GXKIM

我A100x4,会卡在 torch.distributed.barrier(),GPU利用率 100%,但是并未训练,直接死锁。

cyh1123 avatar Jun 12 '23 03:06 cyh1123