FATE icon indicating copy to clipboard operation
FATE copied to clipboard

FATE-2.0.0和FATE-2.1.0提供的LR(train_lr.yaml)模板运行到”lr-0“就运行不下去了

Open 123fei1 opened this issue 1 year ago • 5 comments

fate环境:docker集群版(两方)fate2.0.0/fate2.1.0 (2.0和2.1都部署调试过) 作业发起:使用postman请求http://xxx.xxx.xxx.xxx:9380/v2/job/submit,将train_lr.yaml转化成json格式作为body,创建一个作业。 1713508475273 现象:2.0.0和2.1.0都是同一个现象,运行到lr_0就卡住了,查看日志发现,LR总共迭代10次,但是迭代到第9次就不往下执行了,程序也不报错,整个作业状态还是running 1713429614692 1713432338290

123fei1 avatar Apr 19 '24 06:04 123fei1

提供下你的训练数据规模,部署架构,机器配置,我们复现下看看

dylan-fan avatar Apr 19 '24 08:04 dylan-fan

@dylan-fan

数据规模:用的2.0.0/2.1.0 fateflow项目里自带的数据[breast_hetero_guest.csv和breast_hetero_host.csv]”https://github.com/FederatedAI/FATE-Flow/tree/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/data“,运行的是2.0.0/2.1.0自带的LR模板 ”https://github.com/FederatedAI/FATE-Flow/blob/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/lr/train_lr.yaml“

部署架构: 根据项目fateKube中Docker Compose 部署的两方FATE ”https://github.com/FederatedAI/KubeFATE/blob/v2.0.0/docker-deploy/README_zh.md“。2.0.0的镜像是从dockerhub官网上下载的”https://hub.docker.com/u/federatedai“,2.1.0是根据fate-Builder手动打的镜像”https://github.com/FederatedAI/FATE-Builder/blob/develop-2.0.0/docker-build/README_zh.md“

机器配置: 1713767943949 1713767968602

123fei1 avatar Apr 22 '24 06:04 123fei1

@123fei1 按照你提供的部署方式以及复现方式,没有在我们这边复现成功

yx0090sh avatar Apr 28 '24 02:04 yx0090sh

@dylan-fan

数据规模:用的2.0.0/2.1.0 fateflow项目里自带的数据[breast_hetero_guest.csv和breast_hetero_host.csv]”https://github.com/FederatedAI/FATE-Flow/tree/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/data“,运行的是2.0.0/2.1.0自带的LR模板https://github.com/FederatedAI/FATE-Flow/blob/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/lr/train_lr.yaml“

部署架构: 根据项目fateKube中Docker Compose 部署的两方FATE ”https://github.com/FederatedAI/KubeFATE/blob/v2.0.0/docker-deploy/README_zh.md“。2.0.0的镜像是从dockerhub官网上下载的”https://hub.docker.com/u/federatedai“,2.1.0是根据fate-Builder手动打的镜像”https://github.com/FederatedAI/FATE-Builder/blob/develop-2.0.0/docker-build/README_zh.md“

机器配置: 1713767943949 1713767968602

麻烦确认下: a. 看下debug日志,是不是结束训练了,算法在训练完成之后,会打出下面的话: logger.debug(f"Finish training at {self.end_epoch}th epoch."),所以需要确认下debug级别的日志里面这句话是否存在。 b. 监控一下这个时间点的cpu使用率,看是否满的

mgqa34 avatar Apr 28 '24 02:04 mgqa34

@mgqa34 您好,我重新跑了一个任务,发现日志中没有 logger.debug(f"Finish training at {self.end_epoch}th epoch.")这段话,cpu的使用率也没有占满,可任务就是卡在了lr_0最后一次迭代中不往下执行。 您部署方式和机子和我的方式有啥不同吗?或者部署过程中我有什么遗漏的吗? 1714977760391

123fei1 avatar May 06 '24 06:05 123fei1