inference icon indicating copy to clipboard operation
inference copied to clipboard

xinference v1.12.0无法加载Qwen3-Next-Instruct-80B-FP8

Open dlluckboy opened this issue 2 months ago • 5 comments

System Info / 系統信息

+-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 570.195.03 Driver Version: 570.195.03 CUDA Version: 12.8 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA RTX PRO 6000 Blac... Off | 00000000:16:00.0 Off | 0 | | N/A 43C P0 89W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 1 NVIDIA RTX PRO 6000 Blac... Off | 00000000:27:00.0 Off | 0 | | N/A 44C P0 89W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 2 NVIDIA RTX PRO 6000 Blac... Off | 00000000:A8:00.0 Off | 0 | | N/A 45C P0 91W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+ | 3 NVIDIA RTX PRO 6000 Blac... Off | 00000000:B8:00.0 Off | 0 | | N/A 44C P0 86W / 600W | 982MiB / 97887MiB | 0% Default | | | | Disabled | +-----------------------------------------+------------------------+----------------------+

Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece?

  • [x] docker / docker
  • [ ] pip install / 通过 pip install 安装
  • [ ] installation from source / 从源码安装

Version info / 版本信息

拉取的xinference docker镜像是v1.12.0-cu128

The command used to start Xinference / 用以启动 xinference 的命令

docker run
-v /opt/xinference/.xinference:/root/.xinference
-v /opt/xinference/.cache/huggingface:/root/.cache/huggingface
-v /opt/xinference/.cache/modelscope:/root/.cache/modelscope
-p 9997:9997
--shm-size 128G
--gpus all
--name xinference
xprobe/xinference:v1.12.0-cu128
xinference-local -H 0.0.0.0

Reproduction / 复现过程

测试不管是从huggingface下载Qwen3-Next-Instruct-80B-FP8,然后在xinference中注册模型,并启动,还是直接从xinference中下载模型,都无法正常加载。下面是日志文件 在xinference中下载模型后,加载模型的日志 xinference-20251112153159.log 直接在xinference中下载模型后加载的日志 xinference-20251112153159.log

Expected behavior / 期待表现

启动能正常加载Qwen3-Next-Instruct-80B-FP8

dlluckboy avatar Nov 12 '25 07:11 dlluckboy

这个目前还没有碰到过。

qinxuye avatar Nov 12 '25 10:11 qinxuye

这个目前还没有碰到过。秦总,能看出啥问题吗?跟用的显卡有关系吗?

dlluckboy avatar Nov 13 '25 01:11 dlluckboy

这个目前还没有碰到过。

秦总,我在vllm找到了个文章,是不是跟这个有关 https://github.com/vllm-project/vllm/issues/25378

dlluckboy avatar Nov 13 '25 05:11 dlluckboy

这个目前还没有碰到过。

我这边4090显卡也遇到了这个问题,最后发现使用Qwen3-Next-Instruct-80B-FP8-Dynamic可以正常启动,请问xinference考虑加这个模型吗

greenhand0011 avatar Nov 13 '25 07:11 greenhand0011

这个目前还没有碰到过。

我这边4090显卡也遇到了这个问题,最后发现使用Qwen3-Next-Instruct-80B-FP8-Dynamic可以正常启动,请问xinference考虑加这个模型吗

我在容器内升级vllm后,可以正常加载模型了

dlluckboy avatar Nov 13 '25 07:11 dlluckboy