CINN
CINN copied to clipboard
[WIP]support matmul_v2_grad
支持matmul_v2_grad,对于scale->gemm->scale这种结构,反向可以省去两次scale操作。当seq_len比较大的时候,attention中q*k的输出矩阵比较大,单独执行scale,耗时也会比较高。
Thanks for your contribution!