inference xinference v1.12.0无法加载Qwen3-Next-Instruct-80B-FP8

System Info / 系統信息

Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece？

[x] docker / docker
[ ] pip install / 通过 pip install 安装
[ ] installation from source / 从源码安装

Version info / 版本信息

拉取的xinference docker镜像是v1.12.0-cu128

The command used to start Xinference / 用以启动 xinference 的命令

docker run
-v /opt/xinference/.xinference:/root/.xinference
-v /opt/xinference/.cache/huggingface:/root/.cache/huggingface
-v /opt/xinference/.cache/modelscope:/root/.cache/modelscope
-p 9997:9997
--shm-size 128G
--gpus all
--name xinference
xprobe/xinference:v1.12.0-cu128
xinference-local -H 0.0.0.0

Reproduction / 复现过程

测试不管是从huggingface下载Qwen3-Next-Instruct-80B-FP8，然后在xinference中注册模型，并启动，还是直接从xinference中下载模型，都无法正常加载。下面是日志文件在xinference中下载模型后，加载模型的日志 xinference-20251112153159.log 直接在xinference中下载模型后加载的日志 xinference-20251112153159.log

Expected behavior / 期待表现

启动能正常加载Qwen3-Next-Instruct-80B-FP8

Nov 12 '25 07:11 dlluckboy

这个目前还没有碰到过。

Nov 12 '25 10:11 qinxuye

这个目前还没有碰到过。秦总，能看出啥问题吗？跟用的显卡有关系吗？

Nov 13 '25 01:11 dlluckboy

这个目前还没有碰到过。

秦总，我在vllm找到了个文章，是不是跟这个有关 https://github.com/vllm-project/vllm/issues/25378

Nov 13 '25 05:11 dlluckboy

这个目前还没有碰到过。

我这边4090显卡也遇到了这个问题，最后发现使用Qwen3-Next-Instruct-80B-FP8-Dynamic可以正常启动，请问xinference考虑加这个模型吗

Nov 13 '25 07:11 greenhand0011

这个目前还没有碰到过。

我这边4090显卡也遇到了这个问题，最后发现使用Qwen3-Next-Instruct-80B-FP8-Dynamic可以正常启动，请问xinference考虑加这个模型吗

我在容器内升级vllm后，可以正常加载模型了

Nov 13 '25 07:11 dlluckboy