Takuro IIZUKA

Results 3 comments of Takuro IIZUKA

フィードバックありがとうございます。現時点では、Halide-2017-05-03 のみにて動作確認していますが、最新版(Halide-2018-02-15)以降への追従も計画中です。READMEにHalideバージョンの制限について追記しておきます。

Here is my `rfactor` scheduling for the parallel reduction on GPU. I tested on the CUDA backend and performance is improved on my end. Hopefully it is usefull for you....

Here is print_nest_loop before/after applying scheduling: before: ``` produce out_ptr0: for h1: produce tmp1: tmp1(...) = ... for r8: tmp1(...) = ... consume tmp1: out_ptr0(...) = ... ``` after: ```...