Ray

Results 6 comments of Ray

为什么这里会不断new engine呢,这个worker我理解是在一个线程里运行的,程序不推出这个worker会一直在while循环里等待job

这是不是就是杜佬要修改view()函数,并且取消dynamic axis的原因?

搞了一天,按杜佬的思路改成了,我是用的posemodel,如果只用detect的话只改tal.py就行了。 首先是site-packages\ultralytics\utils\tal.py make_anchors函数: _, _, h, w = feats[i].shape sx = torch.arange(end=w, device=device, dtype=dtype) + grid_cell_offset # shift x 改为 _, _, h, w = feats[i].shape h, w = int(h),...

首先感谢作者提供的这么多decode kernel,还有这整个推理流程,按照我自己微弱的cuda编程能力,我感觉有两点可以提升一下推理速度, 1.YOLOv8Pose::preprocess 里面4个核函数跑起来不如合成一个核函数,比如rgb2bgr,hwc2chw可以改成device function 可以减少一些io,增加一些命中率。 2.cuda stream应用 首先声明cuda stream我目前没玩明白,核函数调用输入空指针是不是就等效于,如果是的话目前这个repo还没有用到stream,我只是粗浅的了解了一下stream的作用,按道理应该是能提升多任务并行的推理速度的。

Of course you can have multiple cuda in your computer.Only driver is unique.