WeClone icon indicating copy to clipboard operation
WeClone copied to clipboard

Mac设备支持

Open xming521 opened this issue 7 months ago • 4 comments

  • vLLM 推理支持降级为 transforms后端推理

xming521 avatar Apr 30 '25 00:04 xming521

MacOS可以使用Metal 加速 (mps),PyTorch 已经支持 M1芯片 的 Metal 加速。 我最近有相关的开发需求,可以帮忙贡献代码。 现在M系芯片的MacBook普遍统一内存很大,32GB以上都很常见,不降级为transforms可以保证性能吧?

AkiyamaKunka avatar May 11 '25 12:05 AkiyamaKunka

MacOS可以使用Metal 加速 (mps),PyTorch 已经支持 M1芯片 的 Metal 加速。 我最近有相关的开发需求,可以帮忙贡献代码。 现在M系芯片的MacBook普遍统一内存很大,32GB以上都很常见,不降级为transforms可以保证性能吧?

这两个感觉不是一个东西 我查了一下ai:

  • Metal 是苹果的底层图形和计算 API,用于访问 GPU。
  • vLLM 是一个 LLM 推理优化引擎,其核心是 PagedAttention 等算法。
  • Metal 不能替代 vLLM,因为它们处于不同层面,Metal 不包含 vLLM 的核心优化。
  • vLLM 可以利用 Metal(如果添加了支持)作为其在苹果硬件上的计算后端。
  • 目前,要在苹果设备上高效运行 LLM,可以考虑 Core ML 或 llama.cpp (其使用 Metal) 等方案。

xming521 avatar May 11 '25 13:05 xming521

#53 Windows也需要替代vllm

xming521 avatar May 13 '25 12:05 xming521

  • vLLM 推理支持降级为 transforms后端推理

Agree. Apple M silicon are currently the best processors for LLMs. They have ample memory, are very affordable, and support parallel computing.

ukateki avatar May 13 '25 19:05 ukateki