phoenixwu0229 comments

Results 8 comments of


                                            phoenixwu0229

k8s日志推送给kafka，相同的pod会推送给不同的partition吗？能不能相同的pod发送的相同的partition，避免乱序

这个有解决吗？

Error: Unable to set Type=notify in systemd service file?

哥们这个问题解决了吗

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

> 老哥，你知道这个问题的根因是哪部分代码有问题吗？

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

> > > > 跟你一样，启动一个没问题，挨个启动也没问题，就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题，从master分支代码从新编译了一下，还是一样的。 > > > > > > > > > 是的，看来我们俩问题是一样的，其他issues上说去年已经解决这个，不知道为啥现在还有这个问题 > > > > > > 嗯等等看有没有其他回复吧，如果你有好的解决方法，麻烦也分享一下 > > hi，我看下项目的部分代码，发现项目无法解决我们的这种情况，唯一可行的方案就是挨个启动。如果是应用到线上环境可以尝试修改kubernetes调度器添加过滤项，将当前时间 - Node上VGPU资源POD最大创建时间

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

> > > > > > > 跟你一样，启动一个没问题，挨个启动也没问题，就是在一个node上同时启动多个pod会有这个报错。我担心他的master镜像有问题，从master分支代码从新编译了一下，还是一样的。 > > > > > > > > > > > > > > > > > > 是的，看来我们俩问题是一样的，其他issues上说去年已经解决这个，不知道为啥现在还有这个问题 > > >...

/tmp/cuda-control/src/loader.c:865 can't find library libcuda.so by use image thomassong/gpu-manager:master

> > > > 不是，是kube-scheduler 可以请教一下修改方法吗？

empty pids goroutine 1 [running]

> Upgrade to v1.1.2 i use this version, Problem still exists

empty pids goroutine 1 [running]

> If your cgroup is systemd，you need add flag to gpu-manager tks, it works but i have another question.. in ali gpu-share solution, nvidia-smi results will show the gpu-mem requested...