[XPU] Add rms_norm and rms_norm_grad op
PR Category
Custom Device
PR Types
New features
Description
添加XPU rms_norm和rms_norm_grad融合算子,与GPU保持一致
你的PR提交成功,感谢你对开源项目的贡献! 请关注后续CI自动化测试结果,详情请参考Paddle-CI手册。 Your PR has been submitted. Thanks for your contribution! Please wait for the result of CI firstly. See Paddle CI Manual for details.
Sorry to inform you that 8aade47's CIs have passed for more than 7 days. To prevent PR conflicts, you need to re-run all CIs manually.
Sorry to inform you that d7554df's CIs have passed for more than 7 days. To prevent PR conflicts, you need to re-run all CIs manually.
从外部使用者的角度来看,新增算子绑定,和现有的走
fast_paddle,有啥区别吗?
一方面,这个算子是PaddleNLP中的算子,GPU角度看,这个算子在PaddleNLP中已经被移到legacy文件夹,由PaddleNLP迁向paddle是一个趋势;另一方面,从XPU角度,fast paddle的地位需要逐渐弱化,让用户尽量不修改GPU代码就能使用,能迁移的尽量迁移,对外部使用者来说使用Paddle中的算子更为友好
从外部使用者的角度来看,新增算子绑定,和现有的走
fast_paddle,有啥区别吗?一方面,这个算子是PaddleNLP中的算子,GPU角度看,这个算子在PaddleNLP中已经被移到legacy文件夹,由PaddleNLP迁向paddle是一个趋势;另一方面,从XPU角度,fast paddle的地位需要逐渐弱化,让用户尽量不修改GPU代码就能使用,能迁移的尽量迁移,对外部使用者来说使用Paddle中的算子更为友好
PaddleNLP模型侧的代码修改可以参考 https://github.com/PaddlePaddle/PaddleNLP/pull/8746
LGTM