euler
euler copied to clipboard
分布式训练ps负载不均衡
我用自己写的模型,在分布式下跑,10个分片,9千万结点,启用2个ps会oom,但是启用3个ps时第三个启用了但是没有数据进入。 测试了用line去跑一份简单的数据,3个ps1个worker,只有第一个ps工作,第23个ps没有参与计算,该如何解决?
ps_strategy=tf.contrib.training.GreedyLoadBalancingStrategy()
@lixusign @a370865882 请教一下,3个PS时,model_dir 是不是只能指定hdfs目录呀,我指定了本地的同名目录,结果有错误,指定hdfs目录需要配置什么呀,目录格式是什么呢? 感谢解答!
不是hdfs没设置上,就是你的hdfs路径不正确,目录格式可以在代码里找到
不是hdfs没设置上,就是你的hdfs路径不正确,目录格式可以在代码里找到 没找见Euler的路径, 我的路径是 hdfs://ip:host/mylibraby ,请问应该是这样的格式吗? 没用过分布式的东西,抱歉!