PaddleX
PaddleX copied to clipboard
PaddleX服务高性能部署,服务不稳定,间歇式报错
Checklist:
- [ ] 查找历史相关issue寻求解答
- [ ] 翻阅FAQ
- [ ] 翻阅PaddleX 文档
- [ ] 确认bug是否在新版本里还未修复
描述问题
操作系统: 麒麟V10,docker服务化部署高性能paddleXOCR服务,部署方式为docker,启动命令如下: docker run -itd -e PADDLEX_HPS_DEVICE_TYPE=gpu -v /opt/rock_deploy/paddleOCR_rockdeploy/paddlex_hps_OCR_sdk/server:/app -v /opt/rock_deploy/paddleOCR_rockdeploy/pdmodels:/app/pdmodels -w /app --rm --gpus 1 --init --network host --shm-size 8g ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu /bin/bash server.sh 客户端循环通过同一张图片调用服务,结果如下: time cost:0.832 s 第 3 次调用 err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found 第 4 次调用 err:StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found第 5 次调用['中华人民共和国机动车证’'Vehtcle Lianse of the Peoples Republie at china'.,"号牌住址',"福建省永泰号'Address',"使用性质’,'非营运”,'品牌型号”市公安局交,'发动机号码','18','Engine No',通警察支队",'注册曰期’,'2017Output image saved at ocr_0.jpg time cost:0.837 s 第 6 次调用 err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found 第 7 次调用 '中华人民共和国机动车证”'Vehtcle Lianse of the Peoples Republie at china''号牌去住址',"福建省永泰县大洋镇号"Address',“使用性质',"非营运",'品牌型号”,"市公安局交","发动机号码”,'18''Engine No",'通警察支队",'注册曰期’,'20170utput image saved at ocr_g.jpgtime cost:8.83 s 第 8 次调用'中华人民共和国机动车证"'Vehtcle Lianse of the Peoples Republie at china','号牌住址',"福建省永泰县大洋号"'Address',"使用性质','非营运",'品牌型号”'1278’,'Engine No’,'通警察支队",'注册曰期”,市公安局交","发动机号码”,"28170utput image saved at ocr_g.jpgtime cost:0.815 s 第 9 次调用 err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found
复现
-
高性能推理
- 您是否完全按照高性能推理文档教程跑通了流程? 是的,服务端没有错误
-
服务化部署
-
您是否完全按照服务化部署文档教程跑通了流程? 是的,已跑通
-
您在服务化部署中是否有使用高性能推理插件?
-
是的,使用了高性能sdk
-
您使用了哪一种服务化部署方案? docker 麒麟系统 镜像:ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu
-
如果是多语言调用的问题,请给出调用示例子。
-
-
请提供您出现的报错信息及相关log 客户端简写式报错: err:[StatusCode.UNAVAILABLE] Request for unknown model: 'ocr' is not found 服务端没有错误日志
环境
-
请提供您使用的PaddlePaddle、PaddleX版本号、Python版本号 镜像:ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu
-
请提供您使用的操作系统信息,如Linux/Windows/MacOS Linux 麒麟v10
-
请问您使用的CUDA/cuDNN的版本号是? cuda: 12.6
请问是否有修改服务配置?此外,请贴一下调用代码吧~
请问是否有修改服务配置?此外,请贴一下调用代码吧~ 代码没有调整,用下面文件起的下载的QCR识别的高性能sdk里的server: docker run -itd -e PADDLEX_HPS_DEVICE_TYPE=gpu -v /opt/rock_deploy/paddleOCR_rockdeploy/paddlex_hps_OCR_sdk/server:/app -v /opt/rock_deploy/paddleOCR_rockdeploy/pdmodels:/app/pdmodels -w /app --rm --gpus 1 --init --network host --shm-size 8g ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlex/hps:paddlex3.0.0-gpu /bin/bash server.sh
客户端只是加了个循环,通过同一张图一直访问连接,没有并发
看起来更像是TritonServer的bug,但我不太确定……我建议可以试试参考文档开2个实例,这样如果一个实例暂时不可用,至少还可以通过另一个实例处理。
看起来更像是TritonServer的bug,但我不太确定……我建议可以试试参考文档开2个实例,这样如果一个实例暂时不可用,至少还可以通过另一个实例处理。
老师,有什么办法可以排查吗?现在信创要求,都是麒麟系统了,但是我们自己也用TritonServer,没有这样的问题,维独用咱们的高性能sdk出现了这个问题
由于历史原因,目前高性能推理使用的Triton Server不是最新版本,所以也不排除是那个版本存在的某些特定问题。因为高性能推理部分我们并没有定制化开发自己的框架,而是直接使用Triton Server的Python backend,而这个错误看起来是Triton Server偶发的失去响应,所以更大概率是Triton Server的问题。建议先尝试下我说的方案,如果不行的话,可以到Triton Server的repo提一个issue。我们也会考虑在未来升级Triton Server版本。
The issue has no response for a long time and will be closed. You can reopen or new another issue if are still confused.
From Bot