fastllm
fastllm copied to clipboard
[feat] 通过AMX提升Xeon CPU在混合推理时的decode速度
请问能否考虑将KTransformer项目的AMX特性移植过来? 已验证通过AMX做prefill速度普遍可以达到250 t/s以上,对比当前是3-5倍的提升
臣附议。