fastllm

fastllm copied to clipboard

Reame
Issues

[feat] 通过AMX提升Xeon CPU在混合推理时的decode速度

Open CodeZ-Hao opened this issue 3 months ago • 1 comments

请问能否考虑将KTransformer项目的AMX特性移植过来？已验证通过AMX做prefill速度普遍可以达到250 t/s以上，对比当前是3-5倍的提升

Sep 30 '25 03:09 CodeZ-Hao

臣附议。

Oct 16 '25 16:10 R3tr0ooo