FATE FATE-2.0.0和FATE-2.1.0提供的LR（train_lr.yaml）模板运行到”lr-0“就运行不下去了

fate环境：docker集群版（两方）fate2.0.0/fate2.1.0 (2.0和2.1都部署调试过) 作业发起：使用postman请求http://xxx.xxx.xxx.xxx:9380/v2/job/submit，将train_lr.yaml转化成json格式作为body，创建一个作业。 1713508475273 现象：2.0.0和2.1.0都是同一个现象，运行到lr_0就卡住了，查看日志发现，LR总共迭代10次，但是迭代到第9次就不往下执行了，程序也不报错，整个作业状态还是running 1713429614692 1713432338290

Apr 19 '24 06:04 123fei1

提供下你的训练数据规模，部署架构，机器配置，我们复现下看看

Apr 19 '24 08:04 dylan-fan

@dylan-fan

数据规模：用的2.0.0/2.1.0 fateflow项目里自带的数据[breast_hetero_guest.csv和breast_hetero_host.csv]”https://github.com/FederatedAI/FATE-Flow/tree/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/data“，运行的是2.0.0/2.1.0自带的LR模板 ”https://github.com/FederatedAI/FATE-Flow/blob/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/lr/train_lr.yaml“

部署架构: 根据项目fateKube中Docker Compose 部署的两方FATE ”https://github.com/FederatedAI/KubeFATE/blob/v2.0.0/docker-deploy/README_zh.md“。2.0.0的镜像是从dockerhub官网上下载的”https://hub.docker.com/u/federatedai“，2.1.0是根据fate-Builder手动打的镜像”https://github.com/FederatedAI/FATE-Builder/blob/develop-2.0.0/docker-build/README_zh.md“

机器配置: 1713767943949 1713767968602

Apr 22 '24 06:04 123fei1

@123fei1 按照你提供的部署方式以及复现方式，没有在我们这边复现成功

Apr 28 '24 02:04 yx0090sh

@dylan-fan

数据规模：用的2.0.0/2.1.0 fateflow项目里自带的数据[breast_hetero_guest.csv和breast_hetero_host.csv]”https://github.com/FederatedAI/FATE-Flow/tree/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/data“，运行的是2.0.0/2.1.0自带的LR模板 ”https://github.com/FederatedAI/FATE-Flow/blob/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/lr/train_lr.yaml“

部署架构: 根据项目fateKube中Docker Compose 部署的两方FATE ”https://github.com/FederatedAI/KubeFATE/blob/v2.0.0/docker-deploy/README_zh.md“。2.0.0的镜像是从dockerhub官网上下载的”https://hub.docker.com/u/federatedai“，2.1.0是根据fate-Builder手动打的镜像”https://github.com/FederatedAI/FATE-Builder/blob/develop-2.0.0/docker-build/README_zh.md“

机器配置:

麻烦确认下： a. 看下debug日志，是不是结束训练了，算法在训练完成之后，会打出下面的话: logger.debug(f"Finish training at {self.end_epoch}th epoch.")，所以需要确认下debug级别的日志里面这句话是否存在。 b. 监控一下这个时间点的cpu使用率，看是否满的

Apr 28 '24 02:04 mgqa34

@mgqa34 您好，我重新跑了一个任务，发现日志中没有 logger.debug(f"Finish training at {self.end_epoch}th epoch.")这段话，cpu的使用率也没有占满，可任务就是卡在了lr_0最后一次迭代中不往下执行。您部署方式和机子和我的方式有啥不同吗？或者部署过程中我有什么遗漏的吗？ 1714977760391

May 06 '24 06:05 123fei1

FATE FATE copied to clipboard

FATE-2.0.0和FATE-2.1.0提供的LR（train_lr.yaml）模板运行到”lr-0“就运行不下去了

FATE
FATE copied to clipboard