fastllm icon indicating copy to clipboard operation
fastllm copied to clipboard

[feat] 通过AMX提升Xeon CPU在混合推理时的decode速度

Open CodeZ-Hao opened this issue 3 months ago • 1 comments

请问能否考虑将KTransformer项目的AMX特性移植过来? 已验证通过AMX做prefill速度普遍可以达到250 t/s以上,对比当前是3-5倍的提升

CodeZ-Hao avatar Sep 30 '25 03:09 CodeZ-Hao

臣附议。

R3tr0ooo avatar Oct 16 '25 16:10 R3tr0ooo