fengyu10 comments

Results 10 comments of


                                            fengyu10

客户端问题

1. grpc协议是支持跨语言的，客户端可以使用其他语言来开发，grpc支持语言有C#、C++、Go、Java、Node、php和Python等 2. 如果使用其他语言来开发客户端麻烦，可以将dl_inference/DLPredictOnline/dlpredictonline/改造成http服务，前端请求dlpredictonline http服务，由dlpredictonline服务请求后端模型

客户端问题

Predict.PredictRequest 对象为Tensorflow-Serving官方proto文件编译出来的java对象，proto文件：https://github.com/tensorflow/serving/blob/master/tensorflow_serving/apis/predict.proto 1. 优先考虑js是否支持grpc，支持可将proto文件编译为js对象，直接传输此对象即可 2. 若不支持，可以考虑后端开发服务做中转，js直接传输数据到后端java服务，后端java服务再调用dl_inference接口

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

我也遇到这种情况，在一个node节点上，同时创建多个pod会出现这种情况；一次启动一个pod不会出现这种情况，请问你有解决嘛？ ![image](https://user-images.githubusercontent.com/31887880/160388381-4ecf0923-d5fa-471c-ac69-49bfeeee19bc.png)

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

> > 我也遇到这种情况，在一个node节点上，同时创建多个pod会出现这种情况；一次启动一个pod不会出现这种情况，请问你有解决嘛？ ![image](https://user-images.githubusercontent.com/31887880/160388381-4ecf0923-d5fa-471c-ac69-49bfeeee19bc.png) > > 没有，你用的哪个版本，我看以往issue中说thomassong/gpu-manager:master这个镜像可以解决，但是我用了之后还是有问题。我也是master代码编译的镜像，我测试多次每次启动一个pod是没有问题，一次性启动多个pod在一个node上就会出现这个错误。你是启动一个pod都有这个问题吗？

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

> 跟你一样，启动一个没问题，挨个启动也没问题，就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题，从master分支代码从新编译了一下，还是一样的。是的，看来我们俩问题是一样的，其他issues上说去年已经解决这个，不知道为啥现在还有这个问题

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

> > > 跟你一样，启动一个没问题，挨个启动也没问题，就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题，从master分支代码从新编译了一下，还是一样的。 > > > > > > 是的，看来我们俩问题是一样的，其他issues上说去年已经解决这个，不知道为啥现在还有这个问题 > > 嗯等等看有没有其他回复吧，如果你有好的解决方法，麻烦也分享一下 hi，我看下项目的部分代码，发现项目无法解决我们的这种情况，唯一可行的方案就是挨个启动。如果是应用到线上环境可以尝试修改kubernetes调度器添加过滤项，将当前时间 - Node上VGPU资源POD最大创建时间