GLM-130B
GLM-130B copied to clipboard
torch run的问题
问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教
问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教
你是在 v100 机器上运行的吗? v100 需要安装 torchrun
pip install bminf
问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教
你是在 v100 机器上运行的吗? v100 需要安装 torchrun
pip install bminf
A100
问题:torchrun找不到 是因为torch cuda版本问题嘛?大佬指教
你是在 v100 机器上运行的吗? v100 需要安装 torchrun
pip install bminf
执行脚本的时候报错,我看脚本里确实使用了torch run scripts/generate.sh 这个脚本
我A100x4,会卡在 torch.distributed.barrier(),GPU利用率 100%,但是并未训练,直接死锁。