mlx模型手动注册时找不到Model Format支持，在macOS上推理模型时无法选择mlx方式推理

Open okwinds opened this issue 1 year ago • 0 comments

System Info / 系統信息

MAC M2 macOS 14.4.1 python 3.10 mlx 0.18.0 mlx-lm 0.18.2

Running Xinference with Docker? / 是否使用 Docker 运行 Xinfernece？

[ ] docker / docker
[X] pip install / 通过 pip install 安装
[ ] installation from source / 从源码安装

Version info / 版本信息

xinference 0.15.3

The command used to start Xinference / 用以启动 xinference 的命令

xinference-local -H 0.0.0.0 -p 8000

Reproduction / 复现过程

启动xinference
访问http://127.0.0.1:8000
到 Register Model 1).注册qwen2-7b-mlx或qwen2.5-7b-mlx，找不到mlx的Model Format 2).选择pytorch注册 3).老版本注册过的mlx可以正常启动，并chat。 4).因前面选择了model format = pytorch注册。手动修改json，将qwen2-7b-mlx新版本xinf的json替换为xinf老版本的json内容，可以正常推理。qwen2-7b-mlx在新版json的基础上，修改Model Format为mlx，推理可以拉起，但是chat会报错。只能用老版本的格式来推理mlx 4).qwen2.5-7b-mlx，修改为老版本json，model_family不能是qwen2.5_instruct，得用qwen2_instruct才可以正常推理。 5).以上操作，均没有测试tool call。

btw，传了个3B的qw2.5-4bit的mlx，方便调试用。 https://www.modelscope.cn/models/okwinds/Qwen2.5-3B-Instruct-MLX-4bit

Expected behavior / 期待表现

希望能再review一下对mlx的支持，并修复它。😄 1.手动注册模型的时候，如果是 mlx 量化模型，允许选择 model format 为 MLX 2.在 macOS 上启动 bf16 或 fp16 模型的时候，允许选择 Model Engine 为 transformers 或 MLX 两个类型来推理模型。

Oct 01 '24 15:10 okwinds