CUDA-Learn-Notes
CUDA-Learn-Notes copied to clipboard
__threadfence() 作用
佬有测试过 0x09 softmax 中的 __threadfence()
吗?这个好像没办法达到grid级别线程之间的同步.