phoenixwu0229

Results 8 comments of phoenixwu0229

> 老哥,你知道这个问题的根因是哪部分代码有问题吗?

> > > > 跟你一样,启动一个没问题,挨个启动也没问题,就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题,从master分支代码从新编译了一下,还是一样的。 > > > > > > > > > 是的,看来我们俩问题是一样的,其他issues上说去年已经解决这个,不知道为啥现在还有这个问题 > > > > > > 嗯 等等看有没有其他回复吧,如果你有好的解决方法,麻烦也分享一下 > > hi,我看下项目的部分代码,发现项目无法解决我们的这种情况,唯一可行的方案就是挨个启动。 如果是应用到线上环境可以尝试修改kubernetes调度器添加过滤项,将 当前时间 - Node上VGPU资源POD最大创建时间

> > > > > > > 跟你一样,启动一个没问题,挨个启动也没问题,就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题,从master分支代码从新编译了一下,还是一样的。 > > > > > > > > > > > > > > > > > > 是的,看来我们俩问题是一样的,其他issues上说去年已经解决这个,不知道为啥现在还有这个问题 > > >...

> > > > 不是,是kube-scheduler 可以请教一下 修改方法吗?

> Upgrade to v1.1.2 i use this version, Problem still exists

> If your cgroup is systemd,you need add flag to gpu-manager tks, it works but i have another question.. in ali gpu-share solution, nvidia-smi results will show the gpu-mem requested...