CINN
CINN copied to clipboard
【DONT MERGE】 test softmax speed
其中 cinn/ir/fuse_block_model_fp16_test.cc 是softmax 在fp16下的测试case, kernel耗时,86微秒, 接近phi kernel的 82 微秒,
但是落后torch的 77.47 微秒
原因是,部分for loop没有进行merge,需要进一步merge,手动merge后,实测性能为 75 微秒,能够追平torch的实现
Thanks for your contribution!