TensorRT-LLM feat: MLA FP8 KV Cache on Blackwell

Add support for fp8 kv cache on blackwell

Mar 24 '25 03:03 DylanChen-NV

/bot run

Mar 24 '25 03:03 DylanChen-NV

PR_Github #231 [ run ] triggered by Bot

Mar 24 '25 04:03 niukuo

PR_Github #231 [ run ] completed with state SUCCESS /LLM/main/L0_MergeRequest_PR pipeline #233 completed with status: 'FAILURE'

Mar 24 '25 08:03 niukuo

/bot run --stage-list H100_PCIe-5,B200_PCIe-2

Mar 24 '25 10:03 DylanChen-NV

PR_Github #286 [ run ] triggered by Bot

Mar 24 '25 10:03 niukuo

Mar 24 '25 11:03 niukuo

/bot run --stage-list H100_PCIe-5,B200_PCIe-2

Mar 24 '25 11:03 DylanChen-NV

PR_Github #294 [ run ] triggered by Bot

Mar 24 '25 11:03 niukuo

Mar 24 '25 13:03 niukuo

This PR can be closed as it has already been merged in https://github.com/NVIDIA/TensorRT-LLM/pull/3190

Apr 11 '25 02:04 DylanChen-NV