inference 【BUG】xinference升级0.12.2后运行glm4v出现OOM

模型是glm4-v-9b，显卡是3090和4090 启动命令： xinference launch --model-engine Transformers --model-name glm-4v --size-in-billions 9 --model-format pytorch --quantization none

问题描述： xinference刚刚升级到0.12.2版本后，3090和4090同时出现OOM（单机单卡），但在升级之前，在两台机器上都是正常的运行。

Jun 24 '24 12:06 Yog-AI

我A800 80G运行glm4 也会爆难绷 0.12.2

Jun 26 '24 12:06 QUNING1

我A800 80G运行glm4 也会爆难绷 0.12.2

是的，我200%确认在pip install xinference -U 之前，glm4v是正常运行且运行了一批识别任务的。

Jun 27 '24 03:06 Yog-AI

我无法探明OOM问题出现的原因，只能给后面遇到相似问题的人一个参考。解决办法：回退xinference版本，重新创建一个conda虚拟环境，然后安装：pip install "xinference[all]==0.12.0" 然后就能运行glm4v模型了

Jun 27 '24 05:06 Yog-AI

+1，3090 24G 设置N-GPU=4，但只使用第一张卡然后OOM

Jun 27 '24 06:06 MiningIrving

+1，3090 24G 设置N-GPU=4，但只使用第一张卡然后OOM

多卡问题glm4v他们官方改过一次代码，我们近期会升级huggingface模型版本号用以适配。modelscope下载的需要删掉模型再下载一遍应该就是他们最新修复的代码。

Jun 27 '24 07:06 ChengjieLi28

我无法探明OOM问题出现的原因，只能给后面遇到相似问题的人一个参考。解决办法：回退xinference版本，重新创建一个conda虚拟环境，然后安装：pip install "xinference[all]==0.12.0" 然后就能运行glm4v模型了

感谢，我也遇到同样问题，折腾了半天，最后用大佬这种方法才算解决。

Jul 27 '24 10:07 zhangever

This issue is stale because it has been open for 7 days with no activity.

Aug 06 '24 06:08 github-actions[bot]

你好我用qwen2.5-instruct-14b也出现了这个报错 xf版本号为0.16.1
一台机器装两台3090 配了N-GPU = 2 请问是同样的问题吗是模型不支持单卡多机部署单个模型还是说是xinfenrence这边不支持

Nov 20 '24 01:11 CRIOWN