xinference v1.12.0无法加载Qwen3-Next-Instruct-80B-FP8
System Info / 系統信息
+-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 570.195.03 Driver Version: 570.195.03 CUDA Version: 12.8 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA RTX PRO 6000 Blac... Off | 00000000:16:00.0 Off | 0 | | N/A 43C P0 89W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA RTX PRO 6000 Blac... Off | 00000000:27:00.0 Off | 0 | | N/A 44C P0 89W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 2 NVIDIA RTX PRO 6000 Blac... Off | 00000000:A8:00.0 Off | 0 | | N/A 45C P0 91W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 3 NVIDIA RTX PRO 6000 Blac... Off | 00000000:B8:00.0 Off | 0 | | N/A 44C P0 86W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+
Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?
- [x] docker / docker
- [ ] pip install / 通过 pip install 安装
- [ ] installation from source / 从源码安装
Version info / 版本信息
拉取的xinference docker镜像是v1.12.0-cu128
The command used to start Xinference / 用以启动 xinference 的命令
docker run
-v /opt/xinference/.xinference:/root/.xinference
-v /opt/xinference/.cache/huggingface:/root/.cache/huggingface
-v /opt/xinference/.cache/modelscope:/root/.cache/modelscope
-p 9997:9997
--shm-size 128G
--gpus all
--name xinference
xprobe/xinference:v1.12.0-cu128
xinference-local -H 0.0.0.0
Reproduction / 复现过程
测试不管是从huggingface下载Qwen3-Next-Instruct-80B-FP8,然后在xinference中注册模型,并启动,还是直接从xinference中下载模型,都无法正常加载。下面是日志文件 在xinference中下载模型后,加载模型的日志 xinference-20251112153159.log 直接在xinference中下载模型后加载的日志 xinference-20251112153159.log
Expected behavior / 期待表现
启动能正常加载Qwen3-Next-Instruct-80B-FP8
这个目前还没有碰到过。
这个目前还没有碰到过。秦总,能看出啥问题吗?跟用的显卡有关系吗?
这个目前还没有碰到过。
秦总,我在vllm找到了个文章,是不是跟这个有关 https://github.com/vllm-project/vllm/issues/25378
这个目前还没有碰到过。
我这边4090显卡也遇到了这个问题,最后发现使用Qwen3-Next-Instruct-80B-FP8-Dynamic可以正常启动,请问xinference考虑加这个模型吗
这个目前还没有碰到过。
我这边4090显卡也遇到了这个问题,最后发现使用Qwen3-Next-Instruct-80B-FP8-Dynamic可以正常启动,请问xinference考虑加这个模型吗
我在容器内升级vllm后,可以正常加载模型了