FATE icon indicating copy to clipboard operation
FATE copied to clipboard

Arbiter spark启动bug

Open 1172910113 opened this issue 1 year ago • 0 comments
trafficstars

问题 自定义算法在standalone上可以正常运行,但是在集群上运行出现了arbiter无法正常初始化的问题。

查看日志后发现arbiter报 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

role配置为 "role": {"arbiter": [10000], "host": [10000 ], "guest": [9999 ]},

通过在网上搜索怀疑是arbiter没有资源的问题,然后通过在spark面板上查看发现host节点会使用所有的cpu核,但内存不会完全被host完全占用,如图 image

为了分配给arbiter资源尝试过在任务的设置文件***_conf.json文件中修改job_parameters设置,以及在虚拟机中设置confs/fate_flow/conf/service_conf.yaml中修改设置(修改后重启了容器),但似乎没有任何影响,还是出现上述问题。

配置 fate1.7.2 docker-compose 2.20.2 spark pulsar 2.7.0

补充 产生过运行官方的自带的算法,配置文件是test_hetero_linr_train_job_conf.json和test_hetero_linr_train_job_conf.json,其中也有arbiter,但是运行过程正常,没有出现上述问题。

1172910113 avatar Jan 07 '24 10:01 1172910113