Guojian Pang

Results 3 issues of Guojian Pang

relate: https://github.com/Oneflow-Inc/OneTeam/issues/1952 n 机 k 卡,只要 n local_rank_0 + local_rank_0 到 local_rank_n,这个是优于 master -> local_rank_k + othre_rank_k 到 local_rank_n 的。 利用 issue 里的模拟同步工具,测试 2 机 8 rank 结果: - https://github.com/Oneflow-Inc/OneTeam/issues/1952#issuecomment-1495248180...

构造一个 CtrlClient 同步数据的模拟工具,用于评估master向worker广播的性能。 update: 以下问题已解决 开启3个进程测试功能: 发现仍存在问题待解决: ``` W20230327 06:15:53.597208 2091708 rank_info_bootstrap_server.cpp:103] BootstrapServer not ready, rpc server on some rank have not been created successfully. Failed at 2 times, total...

修复 issue:https://github.com/Oneflow-Inc/oneflow/issues/10156 这个问题的产生是因为网络中的 upsample 算子的 `height_scale` 跟 `width_scale` 不正确。 原因是利用 shared graph 推理时,没有更新 attr,导致 scale 用的还是第一次推理的 scale。