FATE
FATE copied to clipboard
An Industrial Grade Federated Learning Framework
ALLinone集群部署的时候,在执行部署脚本时,其他组件都启动成功,只有guest端的dashboard无法启动,但是host端的dashboard启动可以正常启动。  看过往issue,说是数据库连接问题,但是我通过查看了配置是没问题的,使用mysql远程链接也没问题。但是guest端的dashboard就是无法启动,期待您的回复
基于这个文档,https://github.com/FederatedAI/FATE/blob/master/deploy/cluster-deploy/allinone/fate-allinone_deployment_guide.zh.md 本机地址为182.168.3.46 我在本机上部署了两个docker,端口和主机映射如下: 我能跑通 ``` source /data/projects/fate/bin/init_env.sh flow test toy -gid 9999 -hid 10000 ``` 但是当我试图跑一个xgb的例子时候,psi的时候报错如下: 另一方host的错误日志: 两边的路由表如下: ``` { "route_table": { "9999": { "default":[ { "port": 9370, "ip": "127.0.0.1"...
大佬好,我使用AnsibleFATE_2.1.1_LLM_2.1.0_release_offline部署,有两台GPU机器,使用flow test测试可以通过,但执行我自己的训练代码时会遇到任务卡住不动,日志里没有报错,且使用nvidia-smi未看到任何存在的进程,从输出日志中看到执行 【start submit deepspeed task deepspeed_202505221013311247640_nn_0_0_guest_9999】后,便没有日志更新了。完整日志如下
我添加了代理: RegistryURI=hub.c.163.com 但是在部署的时候,无法拉取osc镜像: Creating network "confs-10000_fate-network" with the default driver Creating volume "confs-10000_fate_flow_logs" with default driver Creating volume "confs-10000_shared_dir_examples" with local driver Creating volume "confs-10000_shared_dir_fate" with local driver Pulling osx...
请问现在fate2.0版本支持FATE-SERVING了吗或者后续有打算支持吗
尊敬的开发者团队,您好: 我目前在试图优化FATE框架以提高异构联邦学习的通信效率。目前我在针对神经网络nn的训练模块进行探索。 通过追踪源码,我找到了/fate/ml/nn/model_zoo/agg_layer/agg_layer.py文件中的_send_err_to_host(self, ret_error)方法,该方法负责将梯度从guest发送到host。请问,在发送梯度ret_error时,采用的是直接发送梯度矩阵的方式,还是已经应用了梯度压缩技术,如稀疏化或量化?此外,具体发送过程中是否涉及加密?如果使用的话对矩阵/矩阵元素进行加密的代码逻辑可以告知我在哪里吗? 感谢您的帮助!

我们按照fate builder的方法打包了fate2.1版本的镜像,部署之后调用upload的接口上传文件。 File "/data/projects/fate/fate_flow/python/fate_flow/engine/storage/eggroll/ init .py", line 16, in from fate flow.engine,storage.eggroll, table import StorageTable File "/data/projects/fate/fate flow/python/fate_flow/engine/storage/eggroll/ table.py", line 19, in from eggroll,computing import RollPairContext, RollPair ModuleNotFoundError: No module...