Vincent-syr
Results
3
issues of
Vincent-syr
我也有在server上做profile,然后将数据download到windows本地,用Nsight System打开,可无法找到测量的结果。 命令:nsys profile --gpu-metrics-device=0 --stats=true ./a.out 因此我才用手算带宽利用率:bw = n_bytes / latency。 计算的结果与nsys出来的结果有挺大出入,请问可以解释下吗?
add llama pipeline parallel, do not need to do extra split model. It split tp and pp while loading model