how-to-optim-algorithm-in-cuda
how-to-optim-algorithm-in-cuda copied to clipboard
reduce profile命令请问是么
我也有在server上做profile,然后将数据download到windows本地,用Nsight System打开,可无法找到测量的结果。 命令:nsys profile --gpu-metrics-device=0 --stats=true ./a.out
因此我才用手算带宽利用率:bw = n_bytes / latency。 计算的结果与nsys出来的结果有挺大出入,请问可以解释下吗?