FATE
FATE copied to clipboard
基于Spark引擎跑任务在data_transform这一步总是会异常
如图,fate这边会抛spark exception:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0。而在spark-ui上看的话,任务都是成功的。
请问有人碰到过类似的问题吗。求解答。
环境:Centos7 + FATE v1.11.0 + Spark + RabbitMQ。
看了下 executor 的日志,原来是 java.lang.OutOfMemoryError: Java heap space。不知道为什么spark-ui上application会显示为SUCCESS,明明job都失败了。
Spark调参后依然异常,似乎是参数未生效。如图1打印的日志是我设置的参数,到了图2的时候就又变回默认参数了。
@dylan-fan 大佬,能帮忙看下吗。
我们这两天将发布2.1版本,对spark支持会更好。 spark +OSX 就可以,就不需要用rabbitmq 了
我们这两天将发布2.1版本,对spark支持会更好。 spark +OSX 就可以,就不需要用rabbitmq 了
那请问设置了spark_run参数后,似乎会被覆盖的问题,是目前有bug吗。 如果是的话,假设我想尝试着修改下源码,应该主要看那部分的代码呢。
代码可以看flow的代码和fate_arch的目录代码
代码可以看flow的代码和fate_arch的目录代码
@dylan-fan 请问任务运行时执行的到底是哪里的代码。我改完相应的代码后,在
/data/projects/fate/fateflow/python/fate_flow/
/data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/
hdfs://fate_dependence/1.11.0/fate.zip/fate/python/fate_flow/
等等我能找到的所有代码入口都做了修改,加了日志打印等,但重跑任务一点效果都没有,代码根本没生效。
是哪里改漏了吗,这么多份代码,真正被执行的究竟是哪里的代码。
比如
/data/projects/fate/fateflow/python/fate_flow/utils/process_utils.py
和/data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/utils/process_utils.py
以及hdfs中,我都修改了
但没有任何变化。
https://github.com/FederatedAI/FATE-Flow/blob/main-1.x/python/fate_flow/controller/engine_controller/spark.py
https://github.com/FederatedAI/FATE-Flow/blob/main-1.x/python/fate_flow/controller/engine_controller/spark.py
@dylan-fan 辛苦再看下我的问题描述哈。你贴的这个spark文件我早就改过了,我理解这里也不是最终提交sparksubmit的地方,真正最终提交的地方是我贴出来的sub_process这里。这两处代码我都改了。我现在的问题其实不是不知道改哪里,而是代码改了不生效。我想知道具体执行的是哪里缓存了什么代码片段还是怎样。