日月归心
日月归心
> 会报什么错呢 没有报错,只是处理速度提不上去,请问文档中所描述的测试结果的耗时是只针对单个模型来测试的吗,有同时启用多个模型进行处理的耗时测试吗,比如同时开启跟踪检测、车牌识别、人物行为识别等模块吗?
同时运行了五六个模型 ---原始邮件--- 发件人: ***@***.***> 发送时间: 2025年6月19日(周四) 中午11:22 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [PaddlePaddle/PaddleDetection] 本机编译的paddle,使用paddledetection2.8加载模型使用不了trt加速 (Issue #9396) changdazhou left a comment (PaddlePaddle/PaddleDetection#9396) 您是怎么测试的,单图测试可能并不准确哈,另外我们测试的是单模型速度哈 — Reply to this email directly, view...
> 请问可以给出最小复现例子吗?具体的实现方式也可能会有影响。例如,一块GPU上如果只使用一个CUDA stream的话,所有的操作都会是串行执行的,即使用多个线程同时进行推理。 python pipeline/pipeline_c2.py --config pipeline/config/infer_cfg_2.yml --device=gpu --do_break_in_counting --region_type=custom --illegal_parking_time=1 --video_file=resource/video-10min/r5.mp4 --run_mode trt_int8 --trt_calib_mode True python pipeline/pipeline_c2.py --config pipeline/config/infer_cfg_2.yml --device=gpu --do_break_in_counting --region_type=custom --illegal_parking_time=1 --video_file=resource/video-10min/r4.mp4 --run_mode trt_int8 --trt_calib_mode True 之前使用多线程耗时更高,现在改用两个进程耗时有明显降低,但是处理路数多了,模型处理耗时就更高了
> 多线程的情况,需要为每个predictor设置单独的cuda stream,才能实现加速;多进程的情况,“改用两个进程耗时有明显降低,但是处理路数多了,模型处理耗时就更高了”,请问具体是什么耗时降低了,什么耗时升高了哦?另外,从例子中来看,是分别启动了两个Python解释器,同时执行一个脚本,来实现多进程的吗? 是的,同时执行一个脚本,为什么我只处理一路视频,这个python进程cpu占用率会达到200%甚至300%,但是我的脚本里没有启动其他线程只有一个主线程 
> 一些底层的图像处理库(例如OpenCV)以及推理库(例如Paddle)可能会使用多线程来加速,这样可以充分利用多核CPU的能力~如果希望禁用多线程的话,可以对底层库进行相应的设置,不过,这可能会导致推理速度下降 处理一路视频它包含了17个线程,如果这样的话路数越多,整个跟踪检测的耗时就会增大,有什么解决办法吗
> > 一些底层的图像处理库(例如OpenCV)以及推理库(例如Paddle)可能会使用多线程来加速,这样可以充分利用多核CPU的能力~如果希望禁用多线程的话,可以对底层库进行相应的设置,不过,这可能会导致推理速度下降 > > 处理一路视频它包含了17个线程,如果这样的话路数越多,整个跟踪检测的耗时就会增大,有什么解决办法吗 我本机编译的paddle-gpu 环境是jetpack6.2全套的,本来是想用ppyole的超轻量级的模型来跑,但是ppyoloe_plus_crn_t_auxhead_relu_320_300e_coco.yml这个模型使用trt跑不了说内存不够,所以改用的ppyoloe_plus_crn_s_80e_coco
> 我不确定具体是哪个库导致的,如果是使用trt推理的话,我建议考虑OpenCV的设置,可以参考: [opencv/opencv#15277](https://github.com/opencv/opencv/issues/15277) 请问为什么我这个环境跑不了超轻量级的模型呢 cuda 12.6 cudnn 9.3.0.75-1 TensorRT 10.3.0.30-1 报错内存不够,但是ppyoloe_plus_crn_s_80e_coco这个模型就可以
> 具体是报什么错呢?另外观察到显存占用怎么样? 还没开始处理就报错了,创建预测器阶段报错,提示的是需要分配13个g的内存,但是不足,我不明白为什么要先分配这么大的内存,之前在windows 3060跑都可以,换到jetson设备上就用不了,只能用ppyoloe_plus_crn_s_80e_coco这个模型来替代,但是处理速度每张图片需要150ms左右,包括监测+跟踪
同样的模型在windows上3060加载就没问题,Jetson上paddle跑也是可以的 ---原始邮件--- 发件人: "Lin ***@***.***> 发送时间: 2025年4月25日(周五) 晚上10:15 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [PaddlePaddle/PaddleDetection] 多路视频流处理,性能降低 (Issue #9361) Bobholamovic left a comment (PaddlePaddle/PaddleDetection#9361) 这可能和转换tensorrt模型时设置的参数有关,例如动态形状配置可能影响模型占用的内存大小 — Reply to this email directly,...
> 1. Windows机器的资源很可能比jetson充足; > 2. trt做了更多优化,通常需要占用比paddle更多的内存资源。 > > 综上来看,还是比较可能是我说的原因。建议关注trt的优化参数。 建议关注trt的优化参数,什么意思,我还用了一个ppyoloe_plus_crn_t_auxhead_320_300e_coco这个模型相比与ppyoloe_plus_crn_s_80e_coco这个模型在int8下检测耗时没有什么太大的区别