PaddleX icon indicating copy to clipboard operation
PaddleX copied to clipboard

PaddleX服务高性能部署,服务不稳定,间歇式报错

Open RockL888 opened this issue 5 months ago • 4 comments

Checklist:

描述问题

操作系统: 麒麟V10,docker服务化部署高性能paddleXOCR服务,部署方式为docker,启动命令如下: docker run -itd -e PADDLEX_HPS_DEVICE_TYPE=gpu -v /opt/rock_deploy/paddleOCR_rockdeploy/paddlex_hps_OCR_sdk/server:/app -v /opt/rock_deploy/paddleOCR_rockdeploy/pdmodels:/app/pdmodels -w /app --rm --gpus 1 --init --network host --shm-size 8g ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu /bin/bash server.sh 客户端循环通过同一张图片调用服务,结果如下: time cost:0.832 s 第 3 次调用 err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found 第 4 次调用 err:StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found第 5 次调用['中华人民共和国机动车证’'Vehtcle Lianse of the Peoples Republie at china'.,"号牌住址',"福建省永泰号'Address',"使用性质’,'非营运”,'品牌型号”市公安局交,'发动机号码','18','Engine No',通警察支队",'注册曰期’,'2017Output image saved at ocr_0.jpg time cost:0.837 s 第 6 次调用 err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found 第 7 次调用 '中华人民共和国机动车证”'Vehtcle Lianse of the Peoples Republie at china''号牌去住址',"福建省永泰县大洋镇号"Address',“使用性质',"非营运",'品牌型号”,"市公安局交","发动机号码”,'18''Engine No",'通警察支队",'注册曰期’,'20170utput image saved at ocr_g.jpgtime cost:8.83 s 第 8 次调用'中华人民共和国机动车证"'Vehtcle Lianse of the Peoples Republie at china','号牌住址',"福建省永泰县大洋号"'Address',"使用性质','非营运",'品牌型号”'1278’,'Engine No’,'通警察支队",'注册曰期”,市公安局交","发动机号码”,"28170utput image saved at ocr_g.jpgtime cost:0.815 s 第 9 次调用 err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found

复现

  1. 高性能推理

  2. 服务化部署

    • 您是否完全按照服务化部署文档教程跑通了流程? 是的,已跑通

    • 您在服务化部署中是否有使用高性能推理插件?

    • 是的,使用了高性能sdk

    • 您使用了哪一种服务化部署方案? docker 麒麟系统 镜像:ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu

    • 如果是多语言调用的问题,请给出调用示例子。

  3. 请提供您出现的报错信息及相关log 客户端简写式报错: err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found 服务端没有错误日志

环境

  1. 请提供您使用的PaddlePaddle、PaddleX版本号、Python版本号 镜像:ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu

  2. 请提供您使用的操作系统信息,如Linux/Windows/MacOS Linux 麒麟v10

  3. 请问您使用的CUDA/cuDNN的版本号是? cuda: 12.6

RockL888 avatar Jun 10 '25 06:06 RockL888

请问是否有修改服务配置?此外,请贴一下调用代码吧~

Bobholamovic avatar Jun 10 '25 06:06 Bobholamovic

请问是否有修改服务配置?此外,请贴一下调用代码吧~ 代码没有调整,用下面文件起的下载的QCR识别的高性能sdk里的server: docker run -itd -e PADDLEX_HPS_DEVICE_TYPE=gpu -v /opt/rock_deploy/paddleOCR_rockdeploy/paddlex_hps_OCR_sdk/server:/app -v /opt/rock_deploy/paddleOCR_rockdeploy/pdmodels:/app/pdmodels -w /app --rm --gpus 1 --init --network host --shm-size 8g ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu /bin/bash server.sh

客户端只是加了个循环,通过同一张图一直访问连接,没有并发

RockL888 avatar Jun 13 '25 06:06 RockL888

看起来更像是TritonServer的bug,但我不太确定……我建议可以试试参考文档开2个实例,这样如果一个实例暂时不可用,至少还可以通过另一个实例处理。

Bobholamovic avatar Jun 13 '25 11:06 Bobholamovic

看起来更像是TritonServer的bug,但我不太确定……我建议可以试试参考文档开2个实例,这样如果一个实例暂时不可用,至少还可以通过另一个实例处理。

老师,有什么办法可以排查吗?现在信创要求,都是麒麟系统了,但是我们自己也用TritonServer,没有这样的问题,维独用咱们的高性能sdk出现了这个问题

RockL888 avatar Jun 15 '25 02:06 RockL888

由于历史原因,目前高性能推理使用的Triton Server不是最新版本,所以也不排除是那个版本存在的某些特定问题。因为高性能推理部分我们并没有定制化开发自己的框架,而是直接使用Triton Server的Python backend,而这个错误看起来是Triton Server偶发的失去响应,所以更大概率是Triton Server的问题。建议先尝试下我说的方案,如果不行的话,可以到Triton Server的repo提一个issue。我们也会考虑在未来升级Triton Server版本。

Bobholamovic avatar Jun 16 '25 03:06 Bobholamovic

The issue has no response for a long time and will be closed. You can reopen or new another issue if are still confused.


From Bot

TingquanGao avatar Jul 17 '25 12:07 TingquanGao