GaoWei8

Results 11 comments of GaoWei8

初步分析是embeding和输入数据的大小不匹配的问题。具体修改细节,我再沟通下模型负责人吧。

The latest FP32 results for the current clean develop branch (b9dbde12b3) on SKX 6148: 4-dimensional input (fp32_model, test_ds): 1 thread: 249.714 ms 20 threads: 29.741 ms

@bingyanghuang The latest FP32 results for the current clean develop branch (b9dbde12b3) on SKX 6148 4-dimensional input (fp32_model, test_ds): 1 thread profile: ``` I0102 03:32:40.693799 12448 inference.cc:357] Run 5010 samples,...

baseline: 在CPU上面的测试数据 @徐屹, 82.7681ms intel BRTR 28.62ms 优化迭代: 82.7681 ms → 60.3766 ms (提升27%)

使用numactl绑定cpu,最新 ernie 整体耗时36.17ms。 TF 目前docker内测量,耗时 26.39ms。

@zhaify 更新单线程加padding,numactl绑核后Ernie与tf性能对比。 ![屏幕快照 2019-10-11 13 09 23](https://user-images.githubusercontent.com/53294385/66625817-680c6300-ec28-11e9-83f3-c92cb6d442e0.png)

@zhaify 测试padding中memory分配占用时间,仅占总时间的7%。

上图包含FC weight的申请内存, 数据拷贝 以及 释放内存和FC的输入,输出的数据拷贝。 FC,输入输出和weight的申请内存, 数据拷贝 以及 释放内存的全部时间。 可以根据下图计算得到,3.77ms,占总时间37.3145的10.1%

20线程目前仍存在现象:每隔一定周期,都会出现一个较大周期值48ms。 ![8607b8d8c0b013bf63787449f](https://user-images.githubusercontent.com/53294385/66822639-36243500-ef77-11e9-86a5-45d3520ba57f.png)