支持国产GPU/华为昇腾NPU需要做哪些工作?
我们意图在华为Ascend 910B上进行Deepseek-R1 671B的推理,请问适配新的硬件需要做哪些工作?
我们意图在华为Ascend 910B上进行Deepseek-R1 671B的推理,请问适配新的硬件需要做哪些工作?
我们目前没有昇腾的设备和懂昇腾硬件的同学,所以可能没办法支持您做这个。您可以看一下marlin算子是否可以在昇腾卡上运算? https://github.com/IST-DASLab/marlin
我这有,怎么联系?wx群满了
我这有,怎么联系?wx群满了
非常感谢您🙏不过这个支持应该不会在短期计划中。如果想加群的话我们更新了主页的二维码
wx群已更新,我们也有同学在研究国产卡上的算子优化但人手和经验严重不足,短期内不会支持,支持非CUDA卡需要开源社区的帮助
我们意图在华为Ascend 910B上进行Deepseek-R1 671B的推理,请问适配新的硬件需要做哪些工作?
我们目前没有昇腾的设备和懂昇腾硬件的同学,所以可能没办法支持您做这个。您可以看一下marlin算子是否可以在昇腾卡上运算? https://github.com/IST-DASLab/marlin
所以 KTransformer 和硬件之间的接口就只是 Marlin 的矩阵乘算子吗?如果要适配新的硬件,是不是把特定硬件实现的 FP16xINT4 的矩阵乘算子接入 KTransformer 就可以了呢?
我们意图在华为Ascend 910B上进行Deepseek-R1 671B的推理,请问适配新的硬件需要做哪些工作?
我们目前没有昇腾的设备和懂昇腾硬件的同学,所以可能没办法支持您做这个。您可以看一下marlin算子是否可以在昇腾卡上运算? https://github.com/IST-DASLab/marlin
所以 KTransformer 和硬件之间的接口就只是 Marlin 的矩阵乘算子吗?如果要适配新的硬件,是不是把特定硬件实现的 FP16xINT4 的矩阵乘算子接入 KTransformer 就可以了呢?
看上去是的,您可以仿造我们的linearMarlin算子(在linear.py里)构造一个新的算子,然后可能需要注意一下load权重部分,我们是将gguf dequant后再用marlin pack成marlin的权重。这部分如果有不懂的欢迎交流
还有CUDA Graph这种计算图的优化,因为使用了python,不使用计算图优化会导致python成为性能瓶颈
还有CUDA Graph这种计算图的优化,因为使用了python,不使用计算图优化会导致python成为性能瓶颈
昇腾NPU 配套的CANN支持计算图优化
还有CUDA Graph这种计算图的优化,因为使用了python,不使用计算图优化会导致python成为性能瓶颈
目前来看,关键在于marlin算子的实现
感谢大家的回复,鄙人结合各位的建议和对KTransformer源码的分析,总结出以下适配新的硬件组合可能要解决的问题:
- CPU 侧硬件加速指令的支持。如果不使用英特尔的CPU,使用 arm 架构的CPU,可能存在 CPU 侧硬件加速指令的适配工作。
- 加速卡侧(国产GPU/NPU)高性能的 FP16xINT4 矩阵乘算子(Marlin)的适配。如果硬件不支持 INT4,还需考虑使用 INT8 的数据类型代替,改动数据类型这部分,对权重文件或者其他模块存在什么样的影响尚未知。
- 算子图模式支持,需要将源码中使用 CUDA Graph 的部分替换成别家异构计算软件栈中对应的图模型接口。KTransformer框架似乎与CUDA Graph强耦合,如果要适配别的图模式接口,可能会对源码有较大的改动。另外,还要求新引入的图模式接口中有类似cudaLaunchHostFunc的函数,以实现单个forward只生成一张图。目前来看,适配新的异构计算软件栈的图模式的难度较大。
- 引入新的硬件组合后,可能需要尝试更多的计算资源的分配组合,需要理解网络层的计算逻辑,以尝试将哪些网络层放到加速卡上,哪些网络层放到 CPU 上,对开发者的模型结构知识提出了更高的要求。
针对国产卡的适配问题,欢迎大家一起讨论!
KTransformers是当前最火热的最低成本的Deepseek满血版推理方案。KunLun AI Space大模型加速引擎在此基础上完成两项重大技术突破:移植KTransformers到鲲鹏+昇腾全国产生态,同时使用自研算子替代Marlin算子,实现单张昇腾300I Duo推理卡高效运行满血版DeepSeek大模型
https://mp.weixin.qq.com/s/amGL613UMF-seH9pkzZI_g
KTransformers是当前最火热的最低成本的Deepseek满血版推理方案。KunLun AI Space大模型加速引擎在此基础上完成两项重大技术突破:移植KTransformers到鲲鹏+昇腾全国产生态,同时使用自研算子替代Marlin算子,实现单张昇腾300I Duo推理卡高效运行满血版DeepSeek大模型
https://mp.weixin.qq.com/s/amGL613UMF-seH9pkzZI_g
大佬您好,请问有实现的过程嘛?可以复现吗?
KTransformers是当前最火热的最低成本的Deepseek满血版推理方案。KunLun AI Space大模型加速引擎在此基础上完成两项重大技术突破:移植KTransformers到鲲鹏+昇腾全国产生态,同时使用自研算子替代Marlin算子,实现单张昇腾300I Duo推理卡高效运行满血版DeepSeek大模型
https://mp.weixin.qq.com/s/amGL613UMF-seH9pkzZI_g
目前有代码公布计划时间吗?
同求
同求
现在还能支持910b4的推理吗
还有支持Ascend的计划吗,我看之前说 v0.2.4 就会支持,readme中也写了,但是没有看到任何与ascend相关的代码或文档