Qwen2.5
Qwen2.5 copied to clipboard
支持32768上下文长度,但是输入tokens4k左右就有oom的错误,请问有这个情况的吗?怎么解决?
输入token越多用越多的显存。14B无量化大概要28G左右显存,以我自己的环境来说,32G的显存这个时候只能支持到2K左右
我也提供个数据,2x4090, 48G显存,gpu-memory-utilization=0.9,Qwen1.5-14B 最高支持10000token左右
遇到同样的问题。如何在显存固定(比如只有24G)的情况下,支持更长的输入文本呢?
Please also see https://github.com/QwenLM/Qwen1.5/issues/202.