Qwen2.5 icon indicating copy to clipboard operation
Qwen2.5 copied to clipboard

支持32768上下文长度,但是输入tokens4k左右就有oom的错误,请问有这个情况的吗?怎么解决?

Open htaoruan opened this issue 11 months ago • 3 comments

htaoruan avatar Mar 04 '24 10:03 htaoruan

输入token越多用越多的显存。14B无量化大概要28G左右显存,以我自己的环境来说,32G的显存这个时候只能支持到2K左右

kratorado avatar Mar 09 '24 13:03 kratorado

我也提供个数据,2x4090, 48G显存,gpu-memory-utilization=0.9,Qwen1.5-14B 最高支持10000token左右

hfut1995 avatar Mar 26 '24 01:03 hfut1995

遇到同样的问题。如何在显存固定(比如只有24G)的情况下,支持更长的输入文本呢?

sudazzk avatar Apr 01 '24 08:04 sudazzk