Ethan
Ethan
target:204761[pts] source:59051[pts] --- ndt_cuda (P2D) --- terminate called after throwing an instance of 'thrust::system::system_error' what(): reduce failed to synchronize: cudaErrorIllegalAddress: an illegal memory access was encountered Aborted (core dumped) Is...
> 大家好, > > 我添加了时间跨度计算来测量输入和输出内存分配所消耗的时间。 > > 在每个 cuda 函数调用之前都需要这种内存分配。 > > 代码如下。 > > ```c++ > t1 = std::chrono::steady_clock::now(); > cudaMallocManaged(&input, sizeof(float) * 4 * nCount, cudaMemAttachHost); > cudaStreamAttachMemAsync...
> > 请问你的测试机器是? > > x86 pc with > > * qudro-p4000 gpu > * 3.2GHz 12 core cpu 我使用该代码在jetson xavier nx(emmc-16G)上运行cuNDT,最大功耗下,使用的test_P.pcd和test_Q.pcd,跑了100次,平均耗时在110.5ms左右,jetson xavier AGX的FP32浮点性能是jetson xavier nx的1.6倍,但是耗时不是,请问性能对吗?您那边有计划发布其他机器的jetson性能比较吗?期待您的回复,谢谢。