graph-learn icon indicating copy to clipboard operation
graph-learn copied to clipboard

参考tutorial中进行dist.yaml的分布式训练时,worker产生了Unimplemented和Unavailable的报错

Open LucasTsui0725 opened this issue 2 years ago • 4 comments

企业微信截图_3cc11bd8-b82a-4c38-9547-6bc6cb892963

LucasTsui0725 avatar Jul 18 '23 08:07 LucasTsui0725

企业微信截图_7442d23c-ea11-475f-92dc-b42fb7457457

LucasTsui0725 avatar Jul 18 '23 08:07 LucasTsui0725

Could you please let me know which version of the code you are using?

Seventeen17 avatar Jul 24 '23 02:07 Seventeen17

目前使用的版本为从Pypi上直接下载下来的graphlearn v1.1.0版本 参考 #233 对import进行了调整 部署环境为ubuntu 20.04 + gcc 9.4.0 + python 3.8.16 + tf 2.4.3 能完成example中ego_sage的单机训练任务 但是分布式训练出现问题

LucasTsui0725 avatar Jul 24 '23 02:07 LucasTsui0725

目前使用的版本为从Pypi上直接下载下来的graphlearn v1.1.0版本 参考 #233 对import进行了调整 部署环境为ubuntu 20.04 + gcc 9.4.0 + python 3.8.16 + tf 2.4.3 能完成example中ego_sage的单机训练任务 但是分布式训练出现问题

你可以检查一下PS的内存是否OOM,以及可以增加参数设置 gl.set_retry_times(15)

Seventeen17 avatar Jul 28 '23 06:07 Seventeen17