FATE icon indicating copy to clipboard operation
FATE copied to clipboard

基于Spark引擎跑任务在data_transform这一步总是会异常

Open hust-suwb opened this issue 11 months ago • 8 comments

image image

如图,fate这边会抛spark exception:org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0。而在spark-ui上看的话,任务都是成功的。

image

请问有人碰到过类似的问题吗。求解答。

环境:Centos7 + FATE v1.11.0 + Spark + RabbitMQ。

hust-suwb avatar Mar 04 '24 09:03 hust-suwb

看了下 executor 的日志,原来是 java.lang.OutOfMemoryError: Java heap space。不知道为什么spark-ui上application会显示为SUCCESS,明明job都失败了。

hust-suwb avatar Mar 05 '24 09:03 hust-suwb

Spark调参后依然异常,似乎是参数未生效。如图1打印的日志是我设置的参数,到了图2的时候就又变回默认参数了。

image image

@dylan-fan 大佬,能帮忙看下吗。

hust-suwb avatar Mar 06 '24 04:03 hust-suwb

我们这两天将发布2.1版本,对spark支持会更好。 spark +OSX 就可以,就不需要用rabbitmq 了

dylan-fan avatar Mar 06 '24 05:03 dylan-fan

我们这两天将发布2.1版本,对spark支持会更好。 spark +OSX 就可以,就不需要用rabbitmq 了

那请问设置了spark_run参数后,似乎会被覆盖的问题,是目前有bug吗。 如果是的话,假设我想尝试着修改下源码,应该主要看那部分的代码呢。

hust-suwb avatar Mar 06 '24 06:03 hust-suwb

代码可以看flow的代码和fate_arch的目录代码

dylan-fan avatar Mar 07 '24 02:03 dylan-fan

代码可以看flow的代码和fate_arch的目录代码

@dylan-fan 请问任务运行时执行的到底是哪里的代码。我改完相应的代码后,在 /data/projects/fate/fateflow/python/fate_flow/ /data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/ hdfs://fate_dependence/1.11.0/fate.zip/fate/python/fate_flow/ 等等我能找到的所有代码入口都做了修改,加了日志打印等,但重跑任务一点效果都没有,代码根本没生效。 是哪里改漏了吗,这么多份代码,真正被执行的究竟是哪里的代码。

比如 /data/projects/fate/fateflow/python/fate_flow/utils/process_utils.py/data/projects/fate/fateflow/version_dependencies/1.11.0/fate_code/fate/python/fate_flow/utils/process_utils.py以及hdfs中,我都修改了 image 但没有任何变化。

hust-suwb avatar Mar 07 '24 08:03 hust-suwb

https://github.com/FederatedAI/FATE-Flow/blob/main-1.x/python/fate_flow/controller/engine_controller/spark.py

dylan-fan avatar Mar 11 '24 08:03 dylan-fan

https://github.com/FederatedAI/FATE-Flow/blob/main-1.x/python/fate_flow/controller/engine_controller/spark.py

@dylan-fan 辛苦再看下我的问题描述哈。你贴的这个spark文件我早就改过了,我理解这里也不是最终提交sparksubmit的地方,真正最终提交的地方是我贴出来的sub_process这里。这两处代码我都改了。我现在的问题其实不是不知道改哪里,而是代码改了不生效。我想知道具体执行的是哪里缓存了什么代码片段还是怎样。

hust-suwb avatar Mar 13 '24 07:03 hust-suwb