FATE
FATE copied to clipboard
10亿规模求交(DH算法),guest侧进行第二轮加密的的时候会一直卡住,任务超过20小时未结束
Describe the bug 硬件配置,6台40核,256G内存,1.8T固态硬盘。 FATE 版本:1.8.0 部署方式:本地部署 站点A: - 192.168.1.19 部署: rollsite、clustermanager、nodemanager、fate_flow、fateboard - 192.168.1.20 部署: nodemanager - 192.168.1.21 部署: nodemanager 站点B: - 192.168.1.22 部署: rollsite、clustermanager、nodemanager、fate_flow、fateboard - 192.168.1.23 部署: nodemanager - 192.168.1.24 部署: nodemanager
To Reproduce 1、使用fate_test生成 10亿对10亿,交集率为50%的数据集,并上传。 2、提交使用DH算法的隐私集合求交JOB 3、观察job,超过20小时无法完成。 4、观察guest侧进程,发现egg_pair进程还在,但是整体CPU的负载非常低,导处其中任意egg_pair的堆栈(py-spy)发现大量线程处于idle状态。
Expected behavior 求交正常结束,不应该超过20小时还没完成
截图
1、任务一直在got id 1st ciphertext list from guest 后的输出
2、egg_pair进程堆栈情况

同样情况,我是一亿,两边都是部署同一台机器。并且在40几个小时之后报错,报的错就是 #4147 中的错
你好,请问你们多nodemanager是怎么部署的,我一直部署不成功。
你好,请问你们多nodemanager是怎么部署的,我一直部署不成功。
同求