euler icon indicating copy to clipboard operation
euler copied to clipboard

分布式训练ps负载不均衡

Open a370865882 opened this issue 5 years ago • 4 comments

我用自己写的模型,在分布式下跑,10个分片,9千万结点,启用2个ps会oom,但是启用3个ps时第三个启用了但是没有数据进入。 测试了用line去跑一份简单的数据,3个ps1个worker,只有第一个ps工作,第23个ps没有参与计算,该如何解决?

a370865882 avatar Jun 05 '20 07:06 a370865882

ps_strategy=tf.contrib.training.GreedyLoadBalancingStrategy()

lixusign avatar Jun 05 '20 10:06 lixusign

@lixusign @a370865882 请教一下,3个PS时,model_dir 是不是只能指定hdfs目录呀,我指定了本地的同名目录,结果有错误,指定hdfs目录需要配置什么呀,目录格式是什么呢? 感谢解答!

pangedeshijie avatar Sep 03 '20 07:09 pangedeshijie

不是hdfs没设置上,就是你的hdfs路径不正确,目录格式可以在代码里找到

a370865882 avatar Sep 09 '20 02:09 a370865882

不是hdfs没设置上,就是你的hdfs路径不正确,目录格式可以在代码里找到 没找见Euler的路径, 我的路径是 hdfs://ip:host/mylibraby ,请问应该是这样的格式吗? 没用过分布式的东西,抱歉!

pangedeshijie avatar Sep 09 '20 03:09 pangedeshijie