Rayman
Rayman
这个的CI流程里出现了和https://github.com/PaddlePaddle/Paddle/pull/45946一样的问题,今天CI-Build报了同样的错。
向大佬请教一个问题,目前实现了float16的支持,但是对于float16的单测如果我单独执行是可以通过的,但如果一个单测文件中既有float32又有float16,就会报错,后执行的数据类型会出错不清楚为什么😂
> 就是提示梯度误差超过阈值,如果单独测fp16或者单独测fp32就不会
> 这道2🌟题目是要求要完成FP16的性能优化的,基本的要求是FP16性能优于FP32。 现在有三个反向kernel,一个正向kernel。其中正向的和两个反向的都是和fp32速度基本一致,一个使用了CudaAtomicAdd的kernel速度较慢。也想求助下这个有没有合适的替代方法
> 这道2🌟题目是要求要完成FP16的性能优化的,基本的要求是FP16性能优于FP32。 之前因为上述单测的问题,我一直以为fp16计算精度没有达到要求,就将绝大部分转换成了fp32计算。我再优化一下应该可以将目前一致的速度提高一些
> 这道2🌟题目是要求要完成FP16的性能优化的,基本的要求是FP16性能优于FP32。 @zhangting2020 已优化完成,float16没有比float32慢的kernel了,前向速度更优,后向速度一致。具体数值更新在了最开始的表格里
benchmark里结果是这样的,paddle实现的代码应该是准确的,但是benchmark用来对照的好像是有误的。 CI流程中也都给出的是0.02441这个值
> > > benchmark里结果是这样的,paddle实现的代码应该是准确的,但是benchmark用来对照的好像是有误的。 > > > > CI流程中也都给出的是0.02441这个值 @Xreki 这里的截图
>  > > deformable_conv前向性能提升34%,符合黑客松算子优化验收标准。 > > 因OP Benchmark系统中默认只有1个测试配置,建议可以用https://github.com/PaddlePaddle/benchmark/blob/master/api/tests_v2/model_configs/deformable_conv.json 中更多配置验证下性能提升效果。 好的 我后边测试完后再贴一下结果
> 目前此PR引起了ppyolov2模型运行失败,报错如下:  > > 可能与下面的修改有关,在fp16数据类型下,计算过程可以使用fp32,但是输入输出需要保持fp16精度,pr中修改了dx的数据类型。 好的我修改一下,这里确实dx输出没有保持fp16。修改后我是重新开一个PR吗?