HAMi icon indicating copy to clipboard operation
HAMi copied to clipboard

Who's using HAMi

Open archlitchi opened this issue 4 years ago • 61 comments

Sincerely thank you for using and continuing to pay attention to HAMi. In order to better build the community and attract more people to use and contribute to HAMi to strengthen the community, please comment the following information in the issue:

Your company, school or organization. Information about your GPU cluster. Your scenarios using HAMi. You can refer to the following format to provide information: Company(Organization): xxx Website: xxx (Just to get the company logo) GPU cluster: 8 * (T4 * 8) + 4 * (V100*2) Scenarios: DL inference


HAMi maintainers recently launched a survey to understand the main scenarios in which the community uses HAMi, some issues and shortcomings in actual use of HAMi, expectations for future features, and suggestions for the development of the HAMi community. We hope everyone will actively fill in the survey. 🔥

https://wj.qq.com/s2/15558891/77a0/

archlitchi avatar Dec 20 '21 05:12 archlitchi

公司:联易融 使用场景:在线推理 感谢开发者的工作

rnyrnyrny avatar Dec 27 '21 10:12 rnyrnyrny

公司:平安证券

联系方式:17319068082(微信同),张

使用场景:配合kubeflow进行使用,目前公司搭建了一套kubeflow平台,供算法同事使用。但是默认情况下一张显卡只能分配给一个notebook,并且如果notebook不停止/销毁的话,会一直独占这张显卡。我们资源有限,使用了vgpu插件之后可以使一张物理显卡同时让多个算法工程师使用,提升工作效率

遇到的问题:偶尔会遇到jupyter kernel莫名挂掉的问题,暂时还不知道是kubeflow jupyter有bug、或是显存不够用或者其他原因造成的

最后感谢贡献者的出色工作以及开源精神,希望社区能够保持活跃

detongz avatar Dec 28 '21 04:12 detongz

公司: Caper 使用场景: 物理显卡做切分,配合volcano调度器做自动训练pipeline 欢迎大家多多交流使用场景、和别的工具的结合使用经验

summerisc avatar Dec 28 '21 05:12 summerisc

公司:平安证券

联系方式:17319068082(微信同),张

使用场景:配合kubeflow进行使用,目前公司搭建了一套kubeflow平台,供算法同事使用。但是默认情况下一张显卡只能分配给一个notebook,并且如果notebook不停止/销毁的话,会一直独占这张显卡。我们资源有限,使用了vgpu插件之后可以使一张物理显卡同时让多个算法工程师使用,提升工作效率

遇到的问题:偶尔会遇到jupyter kernel莫名挂掉的问题,暂时还不知道是kubeflow jupyter有bug、或是显存不够用或者其他原因造成的

最后感谢贡献者的出色工作以及开源精神,希望社区能够保持活跃

jupyter kernal突然挂掉是因为显存不够,算法同事调整了相关参数之后,没有问题了

detongz avatar Dec 28 '21 07:12 detongz

公司:华为 联系方式:597956597 使用场景:测试多个深度学习推理服务(多容器)共享单卡资源的隔离情况,对提高稀缺资源的利用率有很大帮助 发现有几个问题点: 1:持续增大并发请求,显存持续增加,停掉压测,显存不释放;物理机上服务部署不会出现持续增加的情况 2:GPU算力单元的利用率会超过设置的值(比如单卡切分为2卡,显存是控制住了50%,但算力利用率会超过50%) GPU利用率如何如何和具体的容器进程,pod,deployment、service对象关联起并可视化展示是个可深入探讨的点

感谢开源社区,贡献者的辛勤付出,点赞

AlexPei avatar Jan 05 '22 13:01 AlexPei

公司:平安银行 测试环境在使用这个方案,很好的解决了gpu资源不足的问题,提升了资源的利用率 报issue解决也很快,赞!

jamie-liu avatar Jan 06 '22 08:01 jamie-liu

公司:北京思特奇信息技术有限公司 联系方式:18792187789 使用场景:用于测试训练AI算法

eadou avatar Jan 26 '22 08:01 eadou

公司:北京辰安 联系方式:18132152739 使用场景:深度学习算法推理 感谢开源!加油!!

Chenyangzh avatar Feb 16 '22 02:02 Chenyangzh

公司:中化现代农业有限公司 使用场景:推理 非常感觉作者开源的项目,很好的解决了虚拟化问题,会一直关注,加油!!!

mazhaoshuo avatar Feb 16 '22 06:02 mazhaoshuo

公司:新网银行 测试环境使用,解决了gpu算力隔离问题 为xuanzong点赞,报issue解决也很快,赞!

JJwangbilin avatar Apr 21 '22 02:04 JJwangbilin

公司:浩方 wx方式:khw934 使用场景:测试GPU虚拟化的一些场景, 公司也有GPU机器, 想充分使用GPU 资源 希望后期能增加以下功能: 1:希望支持用CPU资源替代GPU 算力 2: 希望支持这个功能, 在一个node节点一张卡剩下 0.3,另外一直卡剩下 0.5, 希望能还能申请 0.7 , 就是化零为整的功能

感谢开源社区,贡献者的辛勤付出,点赞

khw934 avatar May 06 '22 10:05 khw934

公司:R3 使用场景:Inf Deployment 非常棒的项目 @archlitchi 解决问题非常积极高效

Danniez avatar May 12 '22 11:05 Danniez

公司:中国移动 wx方式:Fedora_lee 使用场景:GPU资源池化,基于GPU时间分片、内存Quota控制情况下针对租户的申请进行隔离,机器学习运算、与售卖场景。 目前遇到的一些小问题: 目前在离线的情况下对于使用helm模板部署不是很友好,导致该项目部署起来异常复杂,应为主机无法通过设置内部镜像源的方式进行。能否提供有关离线部署该插件与调度器的doc文档。 非常感谢对开源社区的贡献。

ssslkj123 avatar Jun 01 '22 09:06 ssslkj123

公司:中国移动 wx方式:Fedora_lee 使用场景:GPU资源池化,基于GPU时间分片、内存Quota控制情况下针对租户的申请进行隔离,机器学习运算、与售卖场景。 目前遇到的一些小问题: 目前在离线的情况下对于使用helm模板部署不是很友好,导致该项目部署起来异常复杂,应为主机无法通过设置内部镜像源的方式进行。能否提供有关离线部署该插件与调度器的doc文档。 非常感谢对开源社区的贡献。

非常感谢您的支持,如果离线部署遇到困难的话,可以加我wx: xuanzong4493

archlitchi avatar Jun 08 '22 12:06 archlitchi

公司:H3C 使用场景:测试环境使用,实现了gpu隔离 为xuanzong点赞,报issue解决也很快,赞!

chenxj1997 avatar Jul 18 '22 11:07 chenxj1997

公司:承启科技 使用场景:测试ubuntu18的环境,搭配k8s 1.18.10的环境,可有效隔离GPU,达到高效使用的需求 为xuanzong点赞,报issue解决也很快,赞!

nickzhuang1 avatar Jul 28 '22 10:07 nickzhuang1

公司:深圳某事业单位 联系方式:un8que (微信) 使用场景:ubuntu18.04 k8s1.19.4 3090 helm方式部署成功~ 感谢xuanzong的答疑解惑,回复十分及时有效~ 另外分享一下问题: vgpu-scheduler单个pod只能申请小于等于显卡张数的gpu单元~

NoKnowKonwNo avatar Aug 02 '22 09:08 NoKnowKonwNo

公司:轩辕网络科技股份有限公司 联系方式:15220036003 使用场景:教学把一张物理GPU卡虚拟化多个vgpu提供给多个学生使用

遇到的问题:vgpu-device-plugin插件安装不上!! 感谢社区工作人员帮助下解决了问题。

15220036003 avatar Aug 12 '22 06:08 15220036003

公司:土豆数据 背景:目前在技术预研阶段 使用场景: 预计会在 模型推理,图像解译等场景使用 规模:目前在开发环境下,8GPU 节点(每个节点2张nvidia卡)

很OK的开源项目,希望一直活跃下去,加油

51qzpw avatar Oct 13 '22 13:10 51qzpw

公司:推想医疗 背景:目前在技术预研阶段 使用场景:模型推理 预计会在 模型推理 规模:目前在开发环境下,10节点(每个节点2张nvidia卡) 很OK的开源项目,希望一直活跃下去,加油**

freemanke avatar Nov 04 '22 00:11 freemanke

公司:中国东信 使用场景:UAT测试环境GPU虚拟化,解决GPU资源共享问题 集群规模:目前2个GPU 节点(每个节点2张nvidia T4卡)

感谢开源贡献者出色工作以及开源精神,希望社区能够保持活跃

fangfenghuang avatar Dec 05 '22 05:12 fangfenghuang

公司:中**业 集群规模:9张卡物理卡,每张卡虚拟为4张vgpu 使用场景:深度学习推理

18735100708 avatar Dec 05 '22 08:12 18735100708

公司:上海联通产业互联网 使用场景:尝试为AI训练和推理搭建可以细粒化切分调度GPU资源的系统化平台 集群规模: 目前有一个三个节点的集群,24张T4卡

zqz199 avatar Dec 06 '22 06:12 zqz199

公司:承O智慧 集群规模:1台A100 4卡机、1台V100 8卡机、50台3060 1卡机、10台3090 4卡机、30台3080 2卡機 使用场景:深度学习训练,教育科研单位

感谢xuanzong的答疑解惑,回复十分及时!解决问题快速~

nickzhuang1 avatar Dec 06 '22 06:12 nickzhuang1

公司:安源汇信 集群规模 10台A100*8的GPU服务器,其中2台做VGPU 使用场景 在教育和科研以及企业内部研发场景,为了提高GPU的资源利用率,通过VGPU很好的解决了这个问题 在使用过程中遇到了一些配置和部署上的问题,也向社区进行了反馈,社区工作人员提供了相关技术支持,帮助我们解决了问题,现在我们已经在多个环境中使用VGPU

nice-jiang avatar Dec 06 '22 06:12 nice-jiang

學校:德國慕尼黑工業大學 集群規模:暫時只有一張物理卡 使用場景:碩士論文,聯合學習測試研發環境

Ajexsen avatar Dec 06 '22 16:12 Ajexsen

学校:东南大学 集群规模:华为Taishan服务器 *5 + Nvidia Tesla T4 *4 使用场景:预研ARM64平台上Kubernetes上GPU资源利用率优化课题+满足甲方要求

niconical avatar Dec 13 '22 04:12 niconical

公司:杭州联汇 集群规模:5-10个节点,30张a2 使用场景:gpu使用隔离,gpu资源最大化利用研究

louyifei8888 avatar Dec 29 '22 02:12 louyifei8888

公司:杭州联汇 集群规模:2-10个节点,30张a2 使用场景:vgpu隔离,分配给多个用户使用

xyy1999 avatar Jan 05 '23 02:01 xyy1999

是的

--

                                                                                           有沟通就有感动         

在 2022-12-05 12:34:54,"fangfenghuang" @.***> 写道:

公司:中国东信 使用场景:UAT测试环境GPU虚拟化,解决GPU资源共享问题 集群规模:目前2个GPU 节点(每个节点2张nvidia T4卡)

感谢开源贡献者出色工作以及开源精神,希望社区能够保持活跃

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

15220036003 avatar Jan 09 '23 01:01 15220036003