FATE 基于Spark引擎跑任务在data_transform这一步总是会异常

如图，fate这边会抛spark exception：org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0。而在spark-ui上看的话，任务都是成功的。

请问有人碰到过类似的问题吗。求解答。

环境：Centos7 + FATE v1.11.0 + Spark + RabbitMQ。

Mar 04 '24 09:03 hust-suwb

看了下 executor 的日志，原来是 java.lang.OutOfMemoryError: Java heap space。不知道为什么spark-ui上application会显示为SUCCESS，明明job都失败了。

Mar 05 '24 09:03 hust-suwb

Spark调参后依然异常，似乎是参数未生效。如图1打印的日志是我设置的参数，到了图2的时候就又变回默认参数了。

@dylan-fan 大佬，能帮忙看下吗。

Mar 06 '24 04:03 hust-suwb

我们这两天将发布2.1版本，对spark支持会更好。 spark +OSX 就可以，就不需要用rabbitmq 了

Mar 06 '24 05:03 dylan-fan

我们这两天将发布2.1版本，对spark支持会更好。 spark +OSX 就可以，就不需要用rabbitmq 了

那请问设置了spark_run参数后，似乎会被覆盖的问题，是目前有bug吗。如果是的话，假设我想尝试着修改下源码，应该主要看那部分的代码呢。

Mar 06 '24 06:03 hust-suwb

代码可以看flow的代码和fate_arch的目录代码

Mar 07 '24 02:03 dylan-fan

代码可以看flow的代码和fate_arch的目录代码

@dylan-fan 请问任务运行时执行的到底是哪里的代码。我改完相应的代码后，在 /data/projects/fate/fateflow/python/fate_flow/ /data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/ hdfs://fate_dependence/1.11.0/fate.zip/fate/python/fate_flow/ 等等我能找到的所有代码入口都做了修改，加了日志打印等，但重跑任务一点效果都没有，代码根本没生效。是哪里改漏了吗，这么多份代码，真正被执行的究竟是哪里的代码。

比如 /data/projects/fate/fateflow/python/fate_flow/utils/process_utils.py和/data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/utils/process_utils.py以及hdfs中，我都修改了但没有任何变化。

Mar 07 '24 08:03 hust-suwb

https://github.com/FederatedAI/FATE-Flow/blob/main-1.x/python/fate_flow/controller/engine_controller/spark.py

Mar 11 '24 08:03 dylan-fan

https://github.com/FederatedAI/FATE-Flow/blob/main-1.x/python/fate_flow/controller/engine_controller/spark.py

@dylan-fan 辛苦再看下我的问题描述哈。你贴的这个spark文件我早就改过了，我理解这里也不是最终提交sparksubmit的地方，真正最终提交的地方是我贴出来的sub_process这里。这两处代码我都改了。我现在的问题其实不是不知道改哪里，而是代码改了不生效。我想知道具体执行的是哪里缓存了什么代码片段还是怎样。

Mar 13 '24 07:03 hust-suwb