hust-suwb
hust-suwb
看了下 executor 的日志,原来是 java.lang.OutOfMemoryError: Java heap space。不知道为什么spark-ui上application会显示为SUCCESS,明明job都失败了。
Spark调参后依然异常,似乎是参数未生效。如图1打印的日志是我设置的参数,到了图2的时候就又变回默认参数了。   @dylan-fan 大佬,能帮忙看下吗。
> 我们这两天将发布2.1版本,对spark支持会更好。 spark +OSX 就可以,就不需要用rabbitmq 了 那请问设置了spark_run参数后,似乎会被覆盖的问题,是目前有bug吗。 如果是的话,假设我想尝试着修改下源码,应该主要看那部分的代码呢。
> 代码可以看flow的代码和fate_arch的目录代码 @dylan-fan 请问任务运行时执行的到底是哪里的代码。我改完相应的代码后,在 `/data/projects/fate/fateflow/python/fate_flow/` `/data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/` `hdfs://fate_dependence/1.11.0/fate.zip/fate/python/fate_flow/` 等等我能找到的**所有代码入口**都做了修改,加了日志打印等,但重跑任务一点效果都没有,代码根本没生效。 是哪里改漏了吗,这么多份代码,真正被执行的究竟是哪里的代码。 比如 `/data/projects/fate/fateflow/python/fate_flow/utils/process_utils.py`和`/data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/utils/process_utils.py`以及hdfs中,我都修改了 但没有任何变化。
> https://github.com/FederatedAI/FATE-Flow/blob/main-1.x/python/fate_flow/controller/engine_controller/spark.py @dylan-fan 辛苦再看下我的问题描述哈。你贴的这个spark文件我早就改过了,我理解这里也不是最终提交sparksubmit的地方,真正最终提交的地方是我贴出来的sub_process这里。这两处代码我都改了。我现在的问题其实不是不知道改哪里,而是代码改了不生效。我想知道具体执行的是哪里缓存了什么代码片段还是怎样。
1.7版本的spark引擎在数据上传阶段应该是有问题的,官方在后续版本修复过,具体哪个版本修的不太确定,1.11版本至少是没有这个问题了。