benchmark Optimize the performance of Transformer-Big on 1 V100 GPU

负责人

@wangchaochaohu

初始性能

测试时间：2019年06月20日
Paddle commit：
models commit：
测试脚本：run.sh

base_batch_size=4096
python -u train.py \
    --src_vocab_fpath data/vocab.bpe.32000 \
    --trg_vocab_fpath data/vocab.bpe.32000 \
    --special_token <s> <e> <unk> \
    --train_file_pattern data/train.tok.clean.bpe.32000.en-de \
    --batch_size ${base_batch_size} \
    --use_token_batch True \
    --sort_type pool \
    --pool_size 200000 \
    --shuffle True \
    --shuffle_batch True \
    --use_py_reader True \
    --use_mem_opt True \
    --enable_ce False \
    --fetch_steps 100 \
    learning_rate 2.0 \
    warmup_steps 8000 \
    beta2 0.997 \
    d_model 1024 \
    d_inner_hid 4096 \
    n_head 16 \
    prepostprocess_dropout 0.3 \
    attention_dropout 0.1 \
    relu_dropout 0.1 \
    weight_sharing True \
    pass_num 100 \
    max_length 256

QA：@ccmeteorljh
单位：steps/s

	Paddle 1.5.0	TensorFlow 1.12.0	Ratio
1 GPU	1.82	1.968	-7.6%
8 GPUs (SP)	13.12	7.072	+86%

Jul 23 '19 08:07 Xreki

Event GpuMemcpyAsync:CPU->GPU BufferedReader:MemoryCopy              20 elementwise_pow                        20 mul_grad reduce_sum                             40 dropout mul elementwise_add lookup_table                           80 label_smooth                           20 scale                                  120 one_hot                                20 layer_norm                             640 softmax_grad                           360 matmul_grad                            740 sum                                    880 transpose2_grad elementwise_add_grad TensorCopy:CPU->GPU GpuMemcpySync:CPU->GPU layer_norm_grad                        640 softmax                                360 elementwise_mul                        80 dropout_grad matmul                                 740 Fetch                                  2 transpose2 adam                                   20 relu_grad                              240 fill_constant                          80 relu                                   240 GpuMemcpyAsync:GPU->CPU lookup_table_grad                      40 reshape2 read                                   40 reshape2_grad softmax_with_cross_entropy             20 softmax_with_cross_entropy_grad        20 GpuMemcpyAsync(same_gpu):GPU->GPU      20 elementwise_min                        20 TensorCopy:GPU->GPU reduce_sum_grad                        20 Scale LossGrad                         20 cast                                   20 elementwise_div                        20 elementwise_mul_grad                   20 elementwise_div_grad                   20 FastThreadedSSAGraphExecutorPrepare    20 increment                              20 InitLocalVars                          1 create_double_buffer_reader            20

GPU利用率基本很满，但存在一定的空白区域，从timeline上来看，是在等待CPU -> GPU的数据传输。

从GPU使用情况来看，GPU占用比较多的是dropout和mul：

临近的dropout和mul占用GPU时间差不多，可分析下计算量，看dropout是否可优化。
timeline里面有很多mul操作，观察各个mul的size、以及各个mul之间的关系，考虑是否可融合成一个大的matmul来计算。

数据加载时间过长的问题

使用tiny数据。tiny数据是从整个数据集的头部摘取了40w条，因此测试结果和使用整个数据集测试的存在diff。

优化计划

[x] 确定profile中所有的CPU -> GPU数据传输都来自哪里 —— 见https://github.com/PaddlePaddle/benchmark/issues/148#issuecomment-514901177
[x] 优化dropout实现 —— 见https://github.com/PaddlePaddle/benchmark/issues/148#issuecomment-517169046
- @guoshengCS 很早之前尝试实现cudnn的dropout：https://github.com/PaddlePaddle/Paddle/pull/14364 ，整体速度能快10%，但会出现多卡固定随机性的问题
[ ] 确认mul的size、计算量，数据之间是否有依赖，是否可以用matmul一次计算batched gemm。可尝试使用Netron画出模型结构。
[x] label_smooth是使用Eigen实现，可尝试优化。

Jul 25 '19 02:07 Xreki

CPU-->GPU 的数据从log来看是数据读取的部分。但是尝试了YOLOv3多进程读取数据的方法，性能并没有得到提升。

Jul 25 '19 03:07 wangchaochaohu

问题：测试脚本中设置了--fetch_steps 100，意思是每100个step才fetch一次？如果每个step都fetch，速度是否有影响？竞品是如何fetch的？

回答From @guoshengCS ：设置--fetch_steps 100对8卡训练速度有很大影响，但设置--fetch_steps 5和设置--fetch_steps 100的结果是差不多的。对于单卡影响不大，需确认。

Jul 25 '19 03:07 Xreki

CPU-->GPU 的数据从log来看是数据读取的部分。但是尝试了YOLOv3多进程读取数据的方法，性能并没有得到提升。

在我本机上(CUDA10.0)

如果原始代码 export FLAGS_reader_queue_speed_test_mode=True 性能提升很小大概是从1.86---->1.92左右差不多
如果改成YOLOv3多进程的方式
- export FLAGS_reader_queue_speed_test_mode=True 那么大概会从1.86---->2.19左右的提升
- 但是export FLAGS_reader_queue_speed_test_mode=False 就没有提升

Jul 25 '19 04:07 wangchaochaohu

CPU -> GPU数据拷贝分析

分析方法

在fluid/memory/memcpy.cc里面加入log
运行时设置export GLOG_v=4
设置exec_stratepy.num_threads=1
结果：

I0719 10:14:50.539557 70931 operator.cc:169] CUDAPlace(0) Op(increment), inputs:{X[@LR_DECAY_COUNTER@:int64_t[1]({})]}, outputs:{Out[@LR_DECAY_COUNTER@:int64_t[1]({})]}.
I0719 10:14:50.539577 70931 operator.cc:1011] expected_kernel_key:data_type[int64_t]:data_layout[ANY_LAYOUT]:place[CPUPlace]:library_type[PLAIN]
I0719 10:14:50.539613 70931 operator.cc:190] CUDAPlace(0) Op(increment), inputs:{X[@LR_DECAY_COUNTER@:int64_t[1]({})]}, outputs:{Out[@LR_DECAY_COUNTER@:int64_t[1]({})]}.
I0719 10:14:50.539629 70931 operator.cc:169] CUDAPlace(0) Op(cast), inputs:{X[@LR_DECAY_COUNTER@:int64_t[1]({})]}, outputs:{Out[cast_0.tmp_0:[-1]({{}})]}.
I0719 10:14:50.539638 70931 operator.cc:1011] expected_kernel_key:data_type[int64_t]:data_layout[ANY_LAYOUT]:place[CPUPlace]:library_type[PLAIN]
I0719 10:14:50.539671 70931 operator.cc:190] CUDAPlace(0) Op(cast), inputs:{X[@LR_DECAY_COUNTER@:int64_t[1]({})]}, outputs:{Out[cast_0.tmp_0:float[1]({})]}.
I0719 10:14:50.539690 70931 operator.cc:169] CUDAPlace(0) Op(elementwise_pow), inputs:{X[cast_0.tmp_0:float[1]({})], Y[tmp_52:float[1]({})]}, outputs:{Out[tmp_53:[-1]({{}})]}.
I0719 10:14:50.539710 70931 operator.cc:1011] expected_kernel_key:data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:14:50.539719 70931 operator.cc:1109] Transform Variable cast_0.tmp_0 from data_type[float]:data_layout[NCHW]:place[CPUPlace]:library_type[PLAIN] to data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:14:50.539731 70931 scope.cc:164] Create variable cast_0.tmp_0
I0719 10:14:50.539741 70931 data_device_transform.cc:21] DeviceTransform in, src_place CPUPlace dst_place: CUDAPlace(0)
I0719 10:14:50.539767 70931 tensor_util.cu:120] TensorCopySync 1 from CPUPlace to CUDAPlace(0)
I0719 10:14:50.539816 70931 memcpy.cc:79] GpuMemcpyAsync:CPU->GPU
I0719 10:14:50.539881 70931 operator.cc:190] CUDAPlace(0) Op(elementwise_pow), inputs:{X[cast_0.tmp_0:float[1]({})], Y[tmp_52:float[1]({})]}, outputs:{Out[tmp_53:float[1]({})]}.

increment、cast都是在CPU上执行的，elementwise_pow以cast的output作为input，因此产生了CPU->GPU data transform。

I0719 10:14:50.539970 70931 operator.cc:169] CUDAPlace(0) Op(elementwise_mul), inputs:{X[cast_0.tmp_0:float[1]({})], Y[tmp_52:float[1]({})]}, outputs:{Out[tmp_55:[-1]({{}})]}.
I0719 10:14:50.539979 70931 operator.cc:1011] expected_kernel_key:data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:14:50.539988 70931 operator.cc:1109] Transform Variable cast_0.tmp_0 from data_type[float]:data_layout[NCHW]:place[CPUPlace]:library_type[PLAIN] to data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:14:50.539994 70931 scope.cc:164] Create variable cast_0.tmp_0
I0719 10:14:50.540000 70931 data_device_transform.cc:21] DeviceTransform in, src_place CPUPlace dst_place: CUDAPlace(0)
I0719 10:14:50.540010 70931 tensor_util.cu:120] TensorCopySync 1 from CPUPlace to CUDAPlace(0)
I0719 10:14:50.540036 70931 memcpy.cc:79] GpuMemcpyAsync:CPU->GPU
I0719 10:14:50.540077 70931 operator.cc:190] CUDAPlace(0) Op(elementwise_mul), inputs:{X[cast_0.tmp_0:float[1]({})], Y[tmp_52:float[1]({})]}, outputs:{Out[tmp_55:float[1]({})]}.

elementwise_mul也是以cast的output作为input，因此也产生了CPU -> GPU的data transform。

I0719 10:15:11.189215 70931 operator.cc:169] CUDAPlace(0) Op(sum), inputs:{X[fc_93.tmp_0:float[32, 125, 1024]({}), fc_95.tmp_1:float[32, 125, 1024]({}), transpose_67.tmp_0:float[32, 125, 1024]({})]}, outputs:{Out[dropout_59.tmp_0:float[32, 125, 1024]({})]}.
I0719 10:15:11.189225 70931 operator.cc:1011] expected_kernel_key:data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:15:11.189285 70931 memcpy.cc:71] stream GpuMemcpyAsync:CPU->GPU
I0719 10:15:11.189311 70931 operator.cc:190] CUDAPlace(0) Op(sum), inputs:{X[fc_93.tmp_0:float[32, 125, 1024]({}), fc_95.tmp_1:float[32, 125, 1024]({}), transpose_67.tmp_0:float[32, 125, 1024]({})]}, outputs:{Out[dropout_59.tmp_0:float[32, 125, 1024]({})]}.

sum求3个LoDTensor的和，需要将输入Tensor的address传到GPU上。一共13次。

I0719 10:15:11.145866 70930 operator.cc:169] CUDAPlace(0) Op(lookup_table), inputs:{Ids[read_file_0.tmp_0:int64_t[32, 126, 1]({})], W[src_word_emb_table:float[4579, 1024]({})]}, outputs:{Out[embedding_0.tmp_0:[-1]({{}})]}.
I0719 10:15:11.145892 70930 operator.cc:1011] expected_kernel_key:data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:15:11.146122 70930 operator.cc:190] CUDAPlace(0) Op(lookup_table), inputs:{Ids[read_file_0.tmp_0:int64_t[32, 126, 1]({})], W[src_word_emb_table:float[4579, 1024]({})]}, outputs:{Out[embedding_0.tmp_0:float[32, 126, 1024]({})]}.
I0719 10:15:11.146148 70930 operator.cc:169] CUDAPlace(0) Op(scale), inputs:{X[embedding_0.tmp_0:float[32, 126, 1024]({})]}, outputs:{Out[scale_0.tmp_0:[-1]({{}})]}.
I0719 10:15:11.146173 70930 operator.cc:1011] expected_kernel_key:data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:15:11.146220 70930 operator.cc:190] CUDAPlace(0) Op(scale), inputs:{X[embedding_0.tmp_0:float[32, 126, 1024]({})]}, outputs:{Out[scale_0.tmp_0:float[32, 126, 1024]({})]}.
I0719 10:15:11.146247 70930 operator.cc:169] CUDAPlace(0) Op(lookup_table), inputs:{Ids[read_file_0.tmp_1:int64_t[32, 126, 1]({})], W[src_pos_enc_table:float[257, 1024]({})]}, outputs:{Out[embedding_0.tmp_0:float[32, 126, 1024]({})]}.
I0719 10:15:11.146257 70930 operator.cc:1011] expected_kernel_key:data_type[float]:data_layout[ANY_LAYOUT]:place[CUDAPlace(0)]:library_type[PLAIN]
I0719 10:15:11.146288 70930 operator.cc:190] CUDAPlace(0) Op(lookup_table), inputs:{Ids[read_file_0.tmp_1:int64_t[32, 126, 1]({})], W[src_pos_enc_table:float[257, 1024]({})]}, outputs:{Out[embedding_0.tmp_0:float[32, 126, 1024]({})]}.

lookup_table直接以读进来的数据作为输入。

Jul 25 '19 05:07 Xreki

这个sync是因为CPU->GPU数据传输导致的，因为在Op里面，如果数据的tensor是在CPU上，但是当前Op是在GPU上运行，需要有从CPU到GPU的拷贝，拷贝时会调用sync操作。

Jul 25 '19 05:07 chengduoZH

CPU-->GPU 的数据从log来看是数据读取的部分。但是尝试了YOLOv3多进程读取数据的方法，性能并没有得到提升。

在我本机上(CUDA10.0)

如果原始代码 export FLAGS_reader_queue_speed_test_mode=True 性能提升很小大概是从1.86---->1.92左右差不多

如果改成YOLOv3多进程的方式

export FLAGS_reader_queue_speed_test_mode=True 那么大概会从1.86---->2.19左右的提升

但是export FLAGS_reader_queue_speed_test_mode=False 就没有提升

关于多进程的写法需要@邓凯鹏 review 下，确定测试结果的正确性

Jul 25 '19 11:07 wangchaochaohu

优化dropout实现

1. 利用cuDNN提供的dropout api的实现实现dropout_cudnn_op，PaddlePaddle/Paddle#18954

遇到的问题：
- mask shape不一致问题，CUDNN为节省显存，Mask 是使用位存储的
- cache问题，我们的OP Test 前向测试并未实现隔离，当创建同名的Cache Var的时候会造成共用一个Var。
transformer-big模型加速效果，性能提升约：10%
- 实验环境：V100 + CUDA10.0
- 单GPU训练速度： 1.852 step/s-> 2.040 step /s
op加速效果(通过profile观察实验数据)：3.81724 -> 2.32318ms
多卡固定随机性的问题
- 问题描述：单卡的时候设定seed能够去掉随机性，但多卡的时候还是会有随机性
- 测试方法：设定seed看多卡多次运行是否输出一致

多卡固定随机性问题测试结果：测试方法：设置enable_ce=True, 使用CUDNN dropout实现运行transformer-big多次，发现结果不一样（可以通过loss是否一致观察）测试结果: 存在多卡固定随机性问题。目前解决方案：（1）每个iter 都初始化一次dropout cudnn 相关desc,这样运行速度会降低很多，比cuda实现要慢。（2）排查多卡Cache不一致原因，正在进行中

2. 优化dropout的CUDA实现：https://github.com/PaddlePaddle/Paddle/pull/19136

试transformer-big（enable_ce）中dropout OP 的平均耗时：(利用PaddlePaddle的profiler工具）：Ave Time : 1.16155 ----> 0.344537（ms）实验环境：V100 + CUDA10.0

模型	优化前	优化后	加速
transformer-big	1.852	2.047	10%
ransformer-base	5.503	6.240	12%

已经验证CUDA实现修改之后无多卡随机性问题 CUDA实现修改之后无多卡随机性问题

Aug 01 '19 07:08 wangchaochaohu

Label Smooth优化 PaddlePaddle/Paddle#19175 transformer-big模型测试: 无性能提升在transformer-big模型中利用PaddlePaddle的profile工具测试单个OP 平均时间:3.51607----------->2.39707(ms)

Aug 15 '19 09:08 wangchaochaohu

对于 cast OP 和increment OP选择CPU Kernel计算的原因是因为我们的代码在这两个OP选择CPU或者GPU算法的时候是根据输入数据是在CPU还是在GPU上进行选择的。修改代码，使用两个OP的GPU kernel type运行transformer-big训练过程，训练速度变化如下： 1.852 --------->1.844 （step /s）本质上数据的data transform 是无法避免的，只不过是在哪个OP进行。

Aug 22 '19 03:08 wangchaochaohu

benchmark benchmark copied to clipboard

Optimize the performance of Transformer-Big on 1 V100 GPU

负责人

初始性能

数据加载时间过长的问题

优化计划

CPU -> GPU数据拷贝分析

分析方法

优化dropout实现

1. 利用cuDNN提供的dropout api的实现实现dropout_cudnn_op，PaddlePaddle/Paddle#18954

2. 优化dropout的CUDA实现：https://github.com/PaddlePaddle/Paddle/pull/19136

benchmark
benchmark copied to clipboard