bleachzk
bleachzk
>Hadoop版本:3.1.0 >XL版本:xlearning-gpu-beta XL的AM启动之后会通知NodeManager执行launch_container.sh创建work和ps对于的container,执行launch_container.sh会有如下错误:    ps:如果不是通过XL提交任务,只是提交一个MR任务(wordcount) container创建没有问题。
尝试在启用kerberos集群的环境下启动XLearning HistoryServer会报找不到keytab文件的错误,现在XL支持安全集群吗?
目前使用XLearning测试Tensorflow分布式模型训练的场景,遇到一些问题: >1. XLearning现在兼容支持的最高的Tensorflow的版本是哪个?目前example里面里提供的测试脚本在1.10的版本是测试不通过的,1.3版本可以兼容。 >2.能否给出保存pb模型文件的方式,现在测试在本机可以保存pb文件的python代码,使用xlearning保存的时候就会报错。
 I can‘t get any error log ...
``` 08-10-2016 11:48:52 CST hive-demo WARN - something happened while trying to kill all spawned jobs java.lang.NullPointerException at azkaban.jobtype.HadoopJobUtils.proxyUserKillAllSpawnedHadoopJobs(HadoopJobUtils.java:346) at azkaban.jobtype.HadoopHiveJob.cancel(HadoopHiveJob.java:290) at azkaban.execapp.JobRunner.kill(JobRunner.java:658) at azkaban.execapp.FlowRunner.kill(FlowRunner.java:930) at azkaban.execapp.FlowRunner.kill(FlowRunner.java:907) at azkaban.execapp.FlowRunnerManager.cancelFlow(FlowRunnerManager.java:601) at...