oneflow
oneflow copied to clipboard
Parallel run task node build
trafficstars
- 拆分 exec graph 的创建、register 的 blob desc 的推导
- 对于 user op,使用 logical blob desc + sbp 来推导 physical blob desc
- 并行推导 user op 的 register blob desc,该部分开销占大头
- 清理掉冗余的 infer physical,默认可以不写 infer physical,默认可以不写 InferRegst
- T5 8卡的 TaskNode::Build 时间:625 ms 降低到 223ms;