inference icon indicating copy to clipboard operation
inference copied to clipboard

【BUG】xinference升级0.12.2后运行glm4v出现OOM

Open Yog-AI opened this issue 1 year ago • 8 comments

模型是glm4-v-9b,显卡是3090和4090 启动命令: xinference launch --model-engine Transformers --model-name glm-4v --size-in-billions 9 --model-format pytorch --quantization none

问题描述: xinference刚刚升级到0.12.2版本后,3090和4090同时出现OOM(单机单卡),但在升级之前,在两台机器上都是正常的运行。

image

Yog-AI avatar Jun 24 '24 12:06 Yog-AI

我A800 80G运行glm4 也会爆 难绷 0.12.2

QUNING1 avatar Jun 26 '24 12:06 QUNING1

我A800 80G运行glm4 也会爆 难绷 0.12.2

是的,我200%确认在pip install xinference -U 之前,glm4v是正常运行且运行了一批识别任务的。

Yog-AI avatar Jun 27 '24 03:06 Yog-AI

我无法探明OOM问题出现的原因,只能给后面遇到相似问题的人一个参考。 解决办法: 回退xinference版本,重新创建一个conda虚拟环境,然后安装:pip install "xinference[all]==0.12.0" 然后就能运行glm4v模型了 image image

Yog-AI avatar Jun 27 '24 05:06 Yog-AI

+1,3090 24G 设置N-GPU=4,但只使用第一张卡然后OOM

MiningIrving avatar Jun 27 '24 06:06 MiningIrving

+1,3090 24G 设置N-GPU=4,但只使用第一张卡然后OOM

多卡问题glm4v他们官方改过一次代码,我们近期会升级huggingface模型版本号用以适配。modelscope下载的需要删掉模型再下载一遍应该就是他们最新修复的代码。

ChengjieLi28 avatar Jun 27 '24 07:06 ChengjieLi28

我无法探明OOM问题出现的原因,只能给后面遇到相似问题的人一个参考。 解决办法: 回退xinference版本,重新创建一个conda虚拟环境,然后安装:pip install "xinference[all]==0.12.0" 然后就能运行glm4v模型了 image image

感谢,我也遇到同样问题,折腾了半天,最后用大佬这种方法才算解决。

zhangever avatar Jul 27 '24 10:07 zhangever

This issue is stale because it has been open for 7 days with no activity.

github-actions[bot] avatar Aug 06 '24 06:08 github-actions[bot]

你好 我用qwen2.5-instruct-14b也出现了这个报错 xf版本号为0.16.1
一台机器装两台3090 配了N-GPU = 2 请问是同样的问题吗 是模型不支持单卡多机部署单个模型 还是说 是xinfenrence这边不支持

CRIOWN avatar Nov 20 '24 01:11 CRIOWN