bleachzk

Results 5 issues of bleachzk

>Hadoop版本:3.1.0 >XL版本:xlearning-gpu-beta XL的AM启动之后会通知NodeManager执行launch_container.sh创建work和ps对于的container,执行launch_container.sh会有如下错误: ![1](https://user-images.githubusercontent.com/5548534/37251312-c134dbfe-2548-11e8-8154-d558e033b87e.PNG) ![2](https://user-images.githubusercontent.com/5548534/37251313-c518a5fc-2548-11e8-80fd-eced124cae1d.PNG) ![3](https://user-images.githubusercontent.com/5548534/37251316-c7d1e254-2548-11e8-96bc-478f2786d336.PNG) ps:如果不是通过XL提交任务,只是提交一个MR任务(wordcount) container创建没有问题。

尝试在启用kerberos集群的环境下启动XLearning HistoryServer会报找不到keytab文件的错误,现在XL支持安全集群吗?

目前使用XLearning测试Tensorflow分布式模型训练的场景,遇到一些问题: >1. XLearning现在兼容支持的最高的Tensorflow的版本是哪个?目前example里面里提供的测试脚本在1.10的版本是测试不通过的,1.3版本可以兼容。 >2.能否给出保存pb模型文件的方式,现在测试在本机可以保存pb文件的python代码,使用xlearning保存的时候就会报错。

![image](https://user-images.githubusercontent.com/5548534/41648381-4a4de280-74ab-11e8-8a00-520ae5f79450.png) I can‘t get any error log ...

``` 08-10-2016 11:48:52 CST hive-demo WARN - something happened while trying to kill all spawned jobs java.lang.NullPointerException at azkaban.jobtype.HadoopJobUtils.proxyUserKillAllSpawnedHadoopJobs(HadoopJobUtils.java:346) at azkaban.jobtype.HadoopHiveJob.cancel(HadoopHiveJob.java:290) at azkaban.execapp.JobRunner.kill(JobRunner.java:658) at azkaban.execapp.FlowRunner.kill(FlowRunner.java:930) at azkaban.execapp.FlowRunner.kill(FlowRunner.java:907) at azkaban.execapp.FlowRunnerManager.cancelFlow(FlowRunnerManager.java:601) at...