fengyu10
fengyu10
1. grpc协议是支持跨语言的,客户端可以使用其他语言来开发,grpc支持语言有C#、C++、Go、Java、Node、php和Python等 2. 如果使用其他语言来开发客户端麻烦,可以将dl_inference/DLPredictOnline/dlpredictonline/改造成http服务,前端请求dlpredictonline http服务,由dlpredictonline服务请求后端模型
Predict.PredictRequest 对象为Tensorflow-Serving官方proto文件编译出来的java对象,proto文件:https://github.com/tensorflow/serving/blob/master/tensorflow_serving/apis/predict.proto 1. 优先考虑js是否支持grpc,支持可将proto文件编译为js对象,直接传输此对象即可 2. 若不支持,可以考虑后端开发服务做中转,js直接传输数据到后端java服务,后端java服务再调用dl_inference接口
我也遇到这种情况,在一个node节点上,同时创建多个pod会出现这种情况;一次启动一个pod不会出现这种情况,请问你有解决嘛? 
> > 我也遇到这种情况,在一个node节点上,同时创建多个pod会出现这种情况;一次启动一个pod不会出现这种情况,请问你有解决嘛?  > > 没有,你用的哪个版本,我看以往issue中说thomassong/gpu-manager:master这个镜像可以解决,但是我用了之后还是有问题。 我也是master代码编译的镜像,我测试多次 每次启动一个pod是没有问题,一次性启动多个pod在一个node上就会出现这个错误。你是启动一个pod都有这个问题吗?
> 跟你一样,启动一个没问题,挨个启动也没问题,就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题,从master分支代码从新编译了一下,还是一样的。 是的,看来我们俩问题是一样的,其他issues上说去年已经解决这个,不知道为啥现在还有这个问题
> > > 跟你一样,启动一个没问题,挨个启动也没问题,就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题,从master分支代码从新编译了一下,还是一样的。 > > > > > > 是的,看来我们俩问题是一样的,其他issues上说去年已经解决这个,不知道为啥现在还有这个问题 > > 嗯 等等看有没有其他回复吧,如果你有好的解决方法,麻烦也分享一下 hi,我看下项目的部分代码,发现项目无法解决我们的这种情况,唯一可行的方案就是挨个启动。 如果是应用到线上环境可以尝试修改kubernetes调度器添加过滤项,将 当前时间 - Node上VGPU资源POD最大创建时间
> > > > > 跟你一样,启动一个没问题,挨个启动也没问题,就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题,从master分支代码从新编译了一下,还是一样的。 > > > > > > > > > > > > 是的,看来我们俩问题是一样的,其他issues上说去年已经解决这个,不知道为啥现在还有这个问题 > > > > > > > > > 嗯 等等看有没有其他回复吧,如果你有好的解决方法,麻烦也分享一下...
> > > > > > 跟你一样,启动一个没问题,挨个启动也没问题,就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题,从master分支代码从新编译了一下,还是一样的。 > > > > > > > > > > > > > > > 是的,看来我们俩问题是一样的,其他issues上说去年已经解决这个,不知道为啥现在还有这个问题 > > > > > > >...
> 不是,是kube-scheduler
https://github.com/kubernetes-sigs/scheduler-plugins 看下这个,在里面添加你自己的插件