CINN icon indicating copy to clipboard operation
CINN copied to clipboard

【DONT MERGE】 test softmax speed

Open phlrain opened this issue 2 years ago • 1 comments

其中 cinn/ir/fuse_block_model_fp16_test.cc 是softmax 在fp16下的测试case, kernel耗时,86微秒, 接近phi kernel的 82 微秒,

但是落后torch的 77.47 微秒

原因是,部分for loop没有进行merge,需要进一步merge,手动merge后,实测性能为 75 微秒,能够追平torch的实现

phlrain avatar Apr 03 '23 08:04 phlrain

Thanks for your contribution!

paddle-bot[bot] avatar Apr 03 '23 08:04 paddle-bot[bot]