Thomas Young
Thomas Young
这个目前没有,估计是你预测过程中,并发数很高导致的缓存队列过大导致的,只能结束服务重新启动。
感觉您这个有点混乱,首先,您应该知道您使用的到底是C++BRPC-Server,还是Python Pipeline Server。 按照您的启动命令,python3 -m paddle_serving_server.serve --model serving_server --port 9494 --gpu_ids 0,您使用的是C++ Server,这时候请参考 https://github.com/PaddlePaddle/Serving/blob/v0.7.0/java/README_CN.md#%E8%AF%B7%E6%B1%82brpc-server 和 https://github.com/PaddlePaddle/Serving/blob/v0.7.0/java/examples/src/main/java/PaddleServingClientExample.java 来编写您自己的Java Client代码。 代码只是一个简单的示例,供您参考。 您需要的输入数据的处理、端口号IP的修改、后处理等等一系列操作都需要您在代码中修改,然后编译。重新执行。
您的情况,建议您先使用curl的方式,试试能不能通。 https://github.com/PaddlePaddle/Serving/blob/v0.7.0/doc/Quick_Start_CN.md#http%E6%9C%8D%E5%8A%A1 也可以使用不带C++的版本试试。 https://github.com/PaddlePaddle/Serving/blob/v0.7.0/examples/C%2B%2B/fit_a_line/test_httpclient.py
示例为了方便演示,统一将结果转换为字符串形式打印输出。 如果需要自行后处理,可以直接去Java的Client 类中,自行修改输出即可。
这个可以用,我是开发者,义务维护吧。
this is a bug, we have already fix it. Temporary solutions is modify the `config.pbtxt` of 3 runtime model. add this code in your `config.pbtxt` optimization { execution_accelerators { gpu_execution_accelerator...
hub serving start -c deploy/hubserving/ocr_system/config.json { "modules_info": { "ocr_system": { "init_args": { "version": "1.0.0", "use_gpu": true }, "predict_args": { } } }, "port": 8868, "use_multiprocess": false, "workers": 10, "gpu": "0,1,2,3"...
其实还有一个问题: 为什么开启multi_process不能打开GPU? 那么既然打开GPU就不能并发,那我指定多卡,其实是不是也不是并发,而是串行的用不同的卡? 如果是这样,那也就解释通了,为什么开多卡比单卡还慢。
开单卡,30张图片,总耗时:72.8076696395874 开4卡,30张图片,总耗时:93.16342949867249