XIE Xuan
XIE Xuan
change loss reduction to mean
``` python dlrm_profile.py ```
使用 ansible 在集群中进行分布式训练。
这个分支固定了数据集,去掉了随机。 需要准备一个可以加载的初始化模型到 `.../models/Vision/classification/image/resnet50/examples/checkpoints/init` 比如在910b上可以 ```bash cd .../models/Vision/classification/image/resnet50/examples cp -r /data1/home/xiexuan/git-repos/models/Vision/classification/image/resnet50/examples/checkpoints . ``` 然后就可以运行 `./npu_eager.sh` 或 `./npu_graph.sh` 目前npu eager和cuda eager/graph都对齐了,但npu graph还没有对齐,输出的pred都是 0.001,需要深入调查 ``` loss tensor(6.9073, placement=oneflow.placement(type="npu", ranks=[0]), sbp=(oneflow.sbp.partial_sum,), dtype=oneflow.float32) pred tensor([[0.0010,...