Qwen3-Coder
Qwen3-Coder copied to clipboard
Qwen3-Coder-480B-A35B-Instruct-FP8,6卡部署报错
Qwen3-Coder-480B-A35B-Instruct-FP8,6卡部署报错
GPU:H20e-141G*6
vllm部署命令
vllm server --model xxxx --port xxx--host 0.0.0.0 --trust-remote-code --served-model-name Qwen3-Coder-480B-A35B-Instruct --gpu_memory_utilization 0.9 --tensor-parallel-size 6 --enable-prefix-caching --enable-chunked-prefill --enable-expert-parallel --max_num_batched_token 2048
报错信息:
用8卡试试,151936无法被6整除