tensorRT_Pro
tensorRT_Pro copied to clipboard
cudaMemcpy耗时较大,对于大图来说,请问有优化方法吗?
我使用的是yolo gpuptr版本,批量数据在添加到images_gpu时,host与device拷贝时间较长,大佬能否提供一下优化思路?
你可以使用pinned memory,也就是cudaMallocHost来分配host的内存,可以优化比较明显