TensorRT-LLM fix: Fix an error related to dummy request when MTP is used

The error is fixed by setting max_num_draft_tokens when creating dummy requests.

Mar 29 '25 08:03 jinyangyuan-nvidia

/bot run --add-multi-gpu-test

Mar 29 '25 08:03 jinyangyuan-nvidia

PR_Github #687 [ run ] triggered by Bot

Mar 29 '25 08:03 tensorrt-cicd

PR_Github #687 [ run ] completed with state SUCCESS /LLM/main/L0_MergeRequest_PR pipeline #576 completed with status: 'FAILURE'

Mar 29 '25 15:03 tensorrt-cicd

/bot run --add-multi-gpu-test

Mar 30 '25 03:03 jinyangyuan-nvidia

PR_Github #695 [ run ] triggered by Bot

Mar 30 '25 03:03 tensorrt-cicd

PR_Github #695 [ run ] completed with state SUCCESS /LLM/main/L0_MergeRequest_PR pipeline #582 completed with status: 'FAILURE'

Mar 30 '25 09:03 tensorrt-cicd

/bot run

Mar 30 '25 09:03 jinyangyuan-nvidia

PR_Github #698 [ run ] triggered by Bot

Mar 30 '25 10:03 tensorrt-cicd

/bot kill

Mar 30 '25 10:03 jinyangyuan-nvidia

PR_Github #700 [ kill ] triggered by Bot

Mar 30 '25 10:03 tensorrt-cicd

PR_Github #698 [ run ] completed with state ABORTED

Mar 30 '25 10:03 tensorrt-cicd

PR_Github #700 [ kill ] completed with state SUCCESS Successfully killed previous jobs for commit cee8ad3

Mar 30 '25 10:03 tensorrt-cicd

/bot run --add-multi-gpu-test --disable-fail-fast

Mar 31 '25 02:03 Shixiaowei02

PR_Github #718 [ run ] triggered by Bot

Mar 31 '25 02:03 tensorrt-cicd

PR_Github #718 [ run ] completed with state SUCCESS /LLM/main/L0_MergeRequest_PR pipeline #599 completed with status: 'FAILURE'

Mar 31 '25 04:03 tensorrt-cicd

/bot run --add-multi-gpu-test --disable-fail-fast

Mar 31 '25 15:03 jinyangyuan-nvidia

/bot run --add-multi-gpu-test --disable-fail-fast

Apr 01 '25 00:04 jinyangyuan-nvidia

PR_Github #811 [ run ] triggered by Bot

Apr 01 '25 00:04 tensorrt-cicd

PR_Github #811 [ run ] completed with state SUCCESS /LLM/main/L0_MergeRequest_PR pipeline #657 completed with status: 'FAILURE'

Apr 01 '25 03:04 tensorrt-cicd

/bot run --add-multi-gpu-test --disable-fail-fast

Apr 01 '25 05:04 jinyangyuan-nvidia

PR_Github #848 [ run ] triggered by Bot

Apr 01 '25 05:04 tensorrt-cicd

/bot kill

Apr 01 '25 08:04 jinyangyuan-nvidia

/bot run --add-multi-gpu-test --disable-fail-fast

Apr 01 '25 08:04 jinyangyuan-nvidia

PR_Github #877 [ kill ] triggered by Bot

Apr 01 '25 08:04 tensorrt-cicd

PR_Github #848 [ run ] completed with state ABORTED

Apr 01 '25 08:04 tensorrt-cicd

PR_Github #877 [ kill ] completed with state SUCCESS Successfully killed previous jobs for commit 0d9cb53

Apr 01 '25 08:04 tensorrt-cicd

PR_Github #878 [ run ] triggered by Bot

Apr 01 '25 08:04 tensorrt-cicd

disaggregated/test_disaggregated.py::test_disaggregated_deepseek_v3_lite_fp8_attention_dp_one_mtp[DeepSeek-V3-Lite-fp8] SKIP (https://nvbugs/5155144)

has been waived in the branch ,please enable it and run ci

Apr 01 '25 13:04 chuangz0

/bot run --add-multi-gpu-test --disable-fail-fast

Apr 01 '25 13:04 jinyangyuan-nvidia

PR_Github #906 [ run ] triggered by Bot

Apr 01 '25 13:04 tensorrt-cicd