XLearning icon indicating copy to clipboard operation
XLearning copied to clipboard

Tensorflow任务修改不同worker num,任务提交失败

Open sinllychen opened this issue 6 years ago • 4 comments

对于demo任务,我在submit命令行中,修改了worker的个数>=3的 worker num执行都会失败,不知道什么问题,从DEBUG日志也看不出是什么错。 qq 20180419111654

qq 20180419111623

sinllychen avatar Apr 19 '18 03:04 sinllychen

页面查看container对应的报错信息。demo提供的文件数为2,worker数目>2时,会有worker获取不到数据

jiarunying avatar Apr 19 '18 06:04 jiarunying

@jiarunying 所以你们在分布式的时候,没有在程序里面对数据进行分片,而是需要提供已经分片好的数据是吗?

sinllychen avatar Apr 19 '18 06:04 sinllychen

input参数对应输入文件的分发,如果是默认的download的模式,则是以hdfs路径下对应的文件个数为单位进行的分发;如果是STREAM模式,则是按照mr中类似的split大小进行分片分发。

jiarunying avatar Apr 19 '18 08:04 jiarunying

@jiarunying 我看了一下你们Stream这边的代码,它的分片只分了一片,感觉很奇怪。我觉得这个地方应该是worker的个数才对 qq 20180419165248

sinllychen avatar Apr 19 '18 08:04 sinllychen