XIE Xuan

Results 8 comments of XIE Xuan

# 使用ansible进行oneflow分布式训练 之前的DLPerf中使用了shell脚本通过ssh进行oneflow分布式训练,DLPerf关注性能,并且根据不同条件需要测试几十、几百、上千个测试案例,自动化测试、可回溯可复现是测试的基本要求。Ansible是一个大规模构建和运维 IT 自动化平台(工具),使用Ansible可以简化和自动化这些oneflow分布式训练测试。 ### inventory 文件 Ansible可同时操作属于一个组的多台主机,组和主机之间的关系通过 `inventory` 文件配置. 默认的文件路径为 `/etc/ansible/hosts`,除默认文件外,你还可以同时使用或者指定其他 `inventory` 文件。根据DLPerf的需求,我们的 `inventory` 文件按照节点数进行分组,组名以节点数为区分,例子如下: ```ini [hosts_1] 10.244.111.4 [hosts_2] 10.244.111.4 10.244.1.14 [hosts_4] 10.244.111.4 10.244.1.14 10.244.1.15 10.244.1.16 ``` 其中`hosts_*`中的`*`指代节点数,方便选取使用。...

非常感谢您的关注! DLPerf着重性能方面的指标,[OneFlow-Benchmark](https://github.com/Oneflow-Inc/OneFlow-Benchmark)仓库里面有准确率方面的指标: - resnet50的ImageNet上的准确率请参考[这里](https://github.com/Oneflow-Inc/OneFlow-Benchmark/tree/master/Classification/cnns#%E9%A2%84%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B) - BERT的几个下游任务的打分请参考[这里](https://github.com/Oneflow-Inc/OneFlow-Benchmark/tree/master/LanguageModeling/BERT)

可以参考[这一小段](https://github.com/Oneflow-Inc/models/blob/ctr_benchmark_test/RecommenderSystems/dlrm/dlrm_train_eval.py#L273-L279) ``` scales = np.sqrt(1 / np.array(table_size_array)) tables = [ flow.one_embedding. make_table_options( flow.one_embedding.make_uniform_initializer(low=-scale, high=scale) ) for scale in scales ] ``` @wjy3326

关于下面这些选项: ``` export CUDA_DEVICE_MAX_CONNECTIONS=32 export ONEFLOW_EP_CUDA_STREAM_FLAGS=1 export ONEFLOW_RAW_READER_PREFETCHING_QUEUE_DEPTH=512 export ONEFLOW_RAW_READER_NUM_WORKERS=1 export LD_PRELOAD=/usr/lib64/libjemalloc.so.1 numactl --interleave=all \ ``` 做了一组实验,记录了74000轮的平均latency(ms)结果如下: ON | OFF -- | -- 1.41855692 | 1.44409019 1.42942288 | 1.43027312 1.42626776...

`enable_fuse_add_to_output` is a new feature which can speed up resnet50 training speed. Please try comment line of `config.enable_fuse_add_to_output(True)` to avoid this error.

The default value of `fuse_bn_relu` and `fuse_bn_add_relu` was changed to `False` temporary, and will be back to `True` after next oneflow release. Please update your code, it should be fixed....

建议保留oneflow_benchmark仓库,再建一个model_zoo仓库。 两者侧重点不一样,benchmark严谨,要求能够复现sota,强调速度。 model zoo强调模型的丰富性和有趣,不太在意速度 sota这些指标。 这些模型可以放到model_zoo里面。

Hi there, We changed the `data_dir` and execute "deepfm_v1_train.py" in debug mode with no error, please find the log below. debug mode log ```bash loaded library: /lib/x86_64-linux-gnu/libibverbs.so.1 loaded library: loaded...