FATE
FATE copied to clipboard
FATE-2.0.0和FATE-2.1.0提供的LR(train_lr.yaml)模板运行到”lr-0“就运行不下去了
fate环境:docker集群版(两方)fate2.0.0/fate2.1.0 (2.0和2.1都部署调试过)
作业发起:使用postman请求http://xxx.xxx.xxx.xxx:9380/v2/job/submit,将train_lr.yaml转化成json格式作为body,创建一个作业。
现象:2.0.0和2.1.0都是同一个现象,运行到lr_0就卡住了,查看日志发现,LR总共迭代10次,但是迭代到第9次就不往下执行了,程序也不报错,整个作业状态还是running
提供下你的训练数据规模,部署架构,机器配置,我们复现下看看
@dylan-fan
数据规模:用的2.0.0/2.1.0 fateflow项目里自带的数据[breast_hetero_guest.csv和breast_hetero_host.csv]”https://github.com/FederatedAI/FATE-Flow/tree/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/data“,运行的是2.0.0/2.1.0自带的LR模板 ”https://github.com/FederatedAI/FATE-Flow/blob/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/lr/train_lr.yaml“
部署架构: 根据项目fateKube中Docker Compose 部署的两方FATE ”https://github.com/FederatedAI/KubeFATE/blob/v2.0.0/docker-deploy/README_zh.md“。2.0.0的镜像是从dockerhub官网上下载的”https://hub.docker.com/u/federatedai“,2.1.0是根据fate-Builder手动打的镜像”https://github.com/FederatedAI/FATE-Builder/blob/develop-2.0.0/docker-build/README_zh.md“
机器配置:
@123fei1 按照你提供的部署方式以及复现方式,没有在我们这边复现成功
@dylan-fan
数据规模:用的2.0.0/2.1.0 fateflow项目里自带的数据[breast_hetero_guest.csv和breast_hetero_host.csv]”https://github.com/FederatedAI/FATE-Flow/tree/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/data“,运行的是2.0.0/2.1.0自带的LR模板 ”https://github.com/FederatedAI/FATE-Flow/blob/689345f1be753610851e63b6cd75ea6fa92e6b82/examples/lr/train_lr.yaml“
部署架构: 根据项目fateKube中Docker Compose 部署的两方FATE ”https://github.com/FederatedAI/KubeFATE/blob/v2.0.0/docker-deploy/README_zh.md“。2.0.0的镜像是从dockerhub官网上下载的”https://hub.docker.com/u/federatedai“,2.1.0是根据fate-Builder手动打的镜像”https://github.com/FederatedAI/FATE-Builder/blob/develop-2.0.0/docker-build/README_zh.md“
机器配置:
![]()
麻烦确认下: a. 看下debug日志,是不是结束训练了,算法在训练完成之后,会打出下面的话: logger.debug(f"Finish training at {self.end_epoch}th epoch."),所以需要确认下debug级别的日志里面这句话是否存在。 b. 监控一下这个时间点的cpu使用率,看是否满的
@mgqa34
您好,我重新跑了一个任务,发现日志中没有 logger.debug(f"Finish training at {self.end_epoch}th epoch.")这段话,cpu的使用率也没有占满,可任务就是卡在了lr_0最后一次迭代中不往下执行。
您部署方式和机子和我的方式有啥不同吗?或者部署过程中我有什么遗漏的吗?
