GaoWei8
GaoWei8
初步分析是embeding和输入数据的大小不匹配的问题。具体修改细节,我再沟通下模型负责人吧。
The latest FP32 results for the current clean develop branch (b9dbde12b3) on SKX 6148: 4-dimensional input (fp32_model, test_ds): 1 thread: 249.714 ms 20 threads: 29.741 ms
@bingyanghuang The latest FP32 results for the current clean develop branch (b9dbde12b3) on SKX 6148 4-dimensional input (fp32_model, test_ds): 1 thread profile: ``` I0102 03:32:40.693799 12448 inference.cc:357] Run 5010 samples,...
baseline: 在CPU上面的测试数据 @徐屹, 82.7681ms intel BRTR 28.62ms 优化迭代: 82.7681 ms → 60.3766 ms (提升27%)
使用numactl绑定cpu,最新 ernie 整体耗时36.17ms。 TF 目前docker内测量,耗时 26.39ms。
目前Ernie与tf性能对比
@zhaify 更新单线程加padding,numactl绑核后Ernie与tf性能对比。 data:image/s3,"s3://crabby-images/1664c/1664c0b78ca072940076168a07d46c4991823220" alt="屏幕快照 2019-10-11 13 09 23"
@zhaify 测试padding中memory分配占用时间,仅占总时间的7%。
上图包含FC weight的申请内存, 数据拷贝 以及 释放内存和FC的输入,输出的数据拷贝。 FC,输入输出和weight的申请内存, 数据拷贝 以及 释放内存的全部时间。 可以根据下图计算得到,3.77ms,占总时间37.3145的10.1%
20线程目前仍存在现象:每隔一定周期,都会出现一个较大周期值48ms。 data:image/s3,"s3://crabby-images/f1a7e/f1a7e489815bd18578c5ef2ef5eb88dc8444da89" alt="8607b8d8c0b013bf63787449f"