libai write metric in tmp worker thread

write metric in tmp worker thread

Open lixinqi opened this issue 2 years ago • 2 comments

使用oneflow.async.thread将write_metrics放置在临时线程里，这样能加速eager的性能。加速效果大概是

测试模型	计算设备	单卡batch_size	分布式情况	oneflow性能	pytorch性能
bert-large	v100	1	单卡	7.24 samples/s	6.8 samples/s
bert-large	v100	2	单卡	8.62 samples/s	8.3 samples/s
bert-large	v100	4	单卡	9.5 samples/s	9.2 samples/s
bert-large	v100	1	两卡	11.54 samples/s	9.5 samples/s
bert-large	v100	2	两卡	15.19 samples/s	13 samples/s
bert-large	v100	4	两卡	17.77 samples/s	16.0 samples/s

若不做这个优化，每一项都会比pytorch要慢。

Sep 05 '22 10:09 lixinqi

可以在四卡的机器上本地跑一下

bash dev/model_test.sh

测试一下是否可以跑通模型的测试

Sep 05 '22 10:09 CPFLAME

可以在四卡的机器上本地跑一下

bash dev/model_test.sh

测试一下是否可以跑通模型的测试

@ouyangyu

Sep 05 '22 11:09 lixinqi