CINN [WIP]support matmul_v2

[WIP]support matmul_v2_grad

Open zkh2016 opened this issue 2 years ago • 1 comments

支持matmul_v2_grad，对于scale->gemm->scale这种结构，反向可以省去两次scale操作。当seq_len比较大的时候，attention中q*k的输出矩阵比较大，单独执行scale，耗时也会比较高。

May 05 '23 08:05 zkh2016

Thanks for your contribution!

May 05 '23 08:05 paddle-bot[bot]