FATE icon indicating copy to clipboard operation
FATE copied to clipboard

10亿规模求交(DH算法),guest侧进行第二轮加密的的时候会一直卡住,任务超过20小时未结束

Open jsuper opened this issue 3 years ago • 2 comments

Describe the bug 硬件配置,6台40核,256G内存,1.8T固态硬盘。 FATE 版本:1.8.0 部署方式:本地部署 站点A: - 192.168.1.19 部署: rollsite、clustermanager、nodemanager、fate_flow、fateboard - 192.168.1.20 部署: nodemanager - 192.168.1.21 部署: nodemanager 站点B: - 192.168.1.22 部署: rollsite、clustermanager、nodemanager、fate_flow、fateboard - 192.168.1.23 部署: nodemanager - 192.168.1.24 部署: nodemanager

To Reproduce 1、使用fate_test生成 10亿对10亿,交集率为50%的数据集,并上传。 2、提交使用DH算法的隐私集合求交JOB 3、观察job,超过20小时无法完成。 4、观察guest侧进程,发现egg_pair进程还在,但是整体CPU的负载非常低,导处其中任意egg_pair的堆栈(py-spy)发现大量线程处于idle状态。

Expected behavior 求交正常结束,不应该超过20小时还没完成

截图 1、任务一直在got id 1st ciphertext list from guest 后的输出 e11a40087d8d707f6579c93847b7681 2、egg_pair进程堆栈情况 微信图片_20220729162825

jsuper avatar Jul 29 '22 07:07 jsuper

同样情况,我是一亿,两边都是部署同一台机器。并且在40几个小时之后报错,报的错就是 #4147 中的错

kanppa avatar Aug 05 '22 01:08 kanppa

你好,请问你们多nodemanager是怎么部署的,我一直部署不成功。

wforever5620 avatar Sep 07 '22 07:09 wforever5620

你好,请问你们多nodemanager是怎么部署的,我一直部署不成功。

同求

chenxuewu avatar Jul 25 '23 03:07 chenxuewu