Rayman comments

Results 23 comments of


                                            Rayman

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

这个的CI流程里出现了和https://github.com/PaddlePaddle/Paddle/pull/45946一样的问题，今天CI-Build报了同样的错。

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

向大佬请教一个问题，目前实现了float16的支持，但是对于float16的单测如果我单独执行是可以通过的，但如果一个单测文件中既有float32又有float16，就会报错，后执行的数据类型会出错不清楚为什么😂

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

> 就是提示梯度误差超过阈值，如果单独测fp16或者单独测fp32就不会

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

> 这道2🌟题目是要求要完成FP16的性能优化的，基本的要求是FP16性能优于FP32。现在有三个反向kernel，一个正向kernel。其中正向的和两个反向的都是和fp32速度基本一致，一个使用了CudaAtomicAdd的kernel速度较慢。也想求助下这个有没有合适的替代方法

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

> 这道2🌟题目是要求要完成FP16的性能优化的，基本的要求是FP16性能优于FP32。之前因为上述单测的问题，我一直以为fp16计算精度没有达到要求，就将绝大部分转换成了fp32计算。我再优化一下应该可以将目前一致的速度提高一些

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

> 这道2🌟题目是要求要完成FP16的性能优化的，基本的要求是FP16性能优于FP32。 @zhangting2020 已优化完成，float16没有比float32慢的kernel了，前向速度更优，后向速度一致。具体数值更新在了最开始的表格里

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

benchmark里结果是这样的，paddle实现的代码应该是准确的，但是benchmark用来对照的好像是有误的。 CI流程中也都给出的是0.02441这个值

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

> > > benchmark里结果是这样的，paddle实现的代码应该是准确的，但是benchmark用来对照的好像是有误的。 > > > > CI流程中也都给出的是0.02441这个值 @Xreki 这里的截图

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

> ![image](https://user-images.githubusercontent.com/12538138/194801761-b8872ab8-2495-4bca-b217-3bc9990eb1c3.png) > > deformable_conv前向性能提升34%，符合黑客松算子优化验收标准。 > > 因OP Benchmark系统中默认只有1个测试配置，建议可以用https://github.com/PaddlePaddle/benchmark/blob/master/api/tests_v2/model_configs/deformable_conv.json 中更多配置验证下性能提升效果。好的我后边测试完后再贴一下结果

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速

> 目前此PR引起了ppyolov2模型运行失败，报错如下： ![84fc2b8478d28629883a1f41d8d41719](https://user-images.githubusercontent.com/26615455/195489271-872178ab-c472-4697-b2ad-f54833e55ac6.png) > > 可能与下面的修改有关，在fp16数据类型下，计算过程可以使用fp32，但是输入输出需要保持fp16精度，pr中修改了dx的数据类型。好的我修改一下，这里确实dx输出没有保持fp16。修改后我是重新开一个PR吗？