日月归心 comments

Results 24 comments of


                                            日月归心

本机编译的paddle，使用paddledetection2.8加载模型使用不了trt加速

> 会报什么错呢没有报错，只是处理速度提不上去，请问文档中所描述的测试结果的耗时是只针对单个模型来测试的吗，有同时启用多个模型进行处理的耗时测试吗，比如同时开启跟踪检测、车牌识别、人物行为识别等模块吗？

本机编译的paddle，使用paddledetection2.8加载模型使用不了trt加速

同时运行了五六个模型 ---原始邮件--- 发件人: ***@***.***> 发送时间: 2025年6月19日(周四) 中午11:22 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [PaddlePaddle/PaddleDetection] 本机编译的paddle，使用paddledetection2.8加载模型使用不了trt加速 (Issue #9396) changdazhou left a comment (PaddlePaddle/PaddleDetection#9396) 您是怎么测试的，单图测试可能并不准确哈，另外我们测试的是单模型速度哈 — Reply to this email directly, view...

多路视频流处理，性能降低

> 请问可以给出最小复现例子吗？具体的实现方式也可能会有影响。例如，一块GPU上如果只使用一个CUDA stream的话，所有的操作都会是串行执行的，即使用多个线程同时进行推理。 python pipeline/pipeline_c2.py --config pipeline/config/infer_cfg_2.yml --device=gpu --do_break_in_counting --region_type=custom --illegal_parking_time=1 --video_file=resource/video-10min/r5.mp4 --run_mode trt_int8 --trt_calib_mode True python pipeline/pipeline_c2.py --config pipeline/config/infer_cfg_2.yml --device=gpu --do_break_in_counting --region_type=custom --illegal_parking_time=1 --video_file=resource/video-10min/r4.mp4 --run_mode trt_int8 --trt_calib_mode True 之前使用多线程耗时更高，现在改用两个进程耗时有明显降低，但是处理路数多了，模型处理耗时就更高了

多路视频流处理，性能降低

> 多线程的情况，需要为每个predictor设置单独的cuda stream，才能实现加速；多进程的情况，“改用两个进程耗时有明显降低，但是处理路数多了，模型处理耗时就更高了”，请问具体是什么耗时降低了，什么耗时升高了哦？另外，从例子中来看，是分别启动了两个Python解释器，同时执行一个脚本，来实现多进程的吗？是的，同时执行一个脚本，为什么我只处理一路视频，这个python进程cpu占用率会达到200%甚至300%，但是我的脚本里没有启动其他线程只有一个主线程 ![Image](https://github.com/user-attachments/assets/8843664a-bf44-41da-8ac7-81fab8d6accb)

多路视频流处理，性能降低

> 一些底层的图像处理库（例如OpenCV）以及推理库（例如Paddle）可能会使用多线程来加速，这样可以充分利用多核CPU的能力～如果希望禁用多线程的话，可以对底层库进行相应的设置，不过，这可能会导致推理速度下降 ![Image](https://github.com/user-attachments/assets/61497444-7c39-4b5a-8d5e-d147c62311c3)处理一路视频它包含了17个线程，如果这样的话路数越多，整个跟踪检测的耗时就会增大，有什么解决办法吗

多路视频流处理，性能降低

> > 一些底层的图像处理库（例如OpenCV）以及推理库（例如Paddle）可能会使用多线程来加速，这样可以充分利用多核CPU的能力～如果希望禁用多线程的话，可以对底层库进行相应的设置，不过，这可能会导致推理速度下降 > > ![Image](https://github.com/user-attachments/assets/61497444-7c39-4b5a-8d5e-d147c62311c3)处理一路视频它包含了17个线程，如果这样的话路数越多，整个跟踪检测的耗时就会增大，有什么解决办法吗我本机编译的paddle-gpu 环境是jetpack6.2全套的，本来是想用ppyole的超轻量级的模型来跑，但是ppyoloe_plus_crn_t_auxhead_relu_320_300e_coco.yml这个模型使用trt跑不了说内存不够，所以改用的ppyoloe_plus_crn_s_80e_coco

多路视频流处理，性能降低

> 我不确定具体是哪个库导致的，如果是使用trt推理的话，我建议考虑OpenCV的设置，可以参考： [opencv/opencv#15277](https://github.com/opencv/opencv/issues/15277) 请问为什么我这个环境跑不了超轻量级的模型呢 cuda 12.6 cudnn 9.3.0.75-1 TensorRT 10.3.0.30-1 报错内存不够，但是ppyoloe_plus_crn_s_80e_coco这个模型就可以

多路视频流处理，性能降低

> 具体是报什么错呢？另外观察到显存占用怎么样？还没开始处理就报错了，创建预测器阶段报错，提示的是需要分配13个g的内存，但是不足，我不明白为什么要先分配这么大的内存，之前在windows 3060跑都可以，换到jetson设备上就用不了，只能用ppyoloe_plus_crn_s_80e_coco这个模型来替代，但是处理速度每张图片需要150ms左右，包括监测+跟踪

多路视频流处理，性能降低

同样的模型在windows上3060加载就没问题，Jetson上paddle跑也是可以的 ---原始邮件--- 发件人: "Lin ***@***.***> 发送时间: 2025年4月25日(周五) 晚上10:15 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [PaddlePaddle/PaddleDetection] 多路视频流处理，性能降低 (Issue #9361) Bobholamovic left a comment (PaddlePaddle/PaddleDetection#9361) 这可能和转换tensorrt模型时设置的参数有关，例如动态形状配置可能影响模型占用的内存大小 — Reply to this email directly,...

多路视频流处理，性能降低

> 1. Windows机器的资源很可能比jetson充足； > 2. trt做了更多优化，通常需要占用比paddle更多的内存资源。 > > 综上来看，还是比较可能是我说的原因。建议关注trt的优化参数。建议关注trt的优化参数,什么意思，我还用了一个ppyoloe_plus_crn_t_auxhead_320_300e_coco这个模型相比与ppyoloe_plus_crn_s_80e_coco这个模型在int8下检测耗时没有什么太大的区别