ktransformers icon indicating copy to clipboard operation
ktransformers copied to clipboard

模型大小140G,设备内存256G,不开启 NUMA,内存占用为什么只有4G左右?

Open corengh opened this issue 3 months ago • 3 comments

CPU:INTEL XEON PLATINUM 8582C 2.6GHZ 60核 内存:DDR5-5600 32G × 8 显卡:NVIDIA GeForce RTX 3090 24G × 2 系统:Ubuntu 24.04 KTranformers 版本:0.3.2 加载模型:DeepSeek-R1-UD-IQ1_S(140.23G)

双路主板,但是目前只使用了一路 CPU。

编译时不使用 export USE_NUMA=1 ,运行时内存占用只有 4G 左右,显存占用 12-13G(不使用 balance)或 15-16G(使用 balance),decode 13 Tokens/s 左右。

编译时开启 NUMA,运行时内存占用 236G 左右,其它方面包括性能表现和不开启没有差异,反而因为剩余内存较低,感觉有些卡顿。

求解的疑惑是:

  1. 不开启 NUMA 为什么内存占用这么低?这正常吗?
  2. 开启后性能没有得到提升,是因为只使用了单路并且内存不够充足吗?

corengh avatar Sep 08 '25 09:09 corengh

free -h

看buffer/cache,主要内存占用在这里

mrgaolei avatar Sep 09 '25 02:09 mrgaolei

free -h 看buffer/cache,主要内存占用在这里

嗯,我也有观察到这块的变化,也就是加载到 buffer/cache 里是正常的是吗?但是为什么开启 NUMA 后,buffer/cache 没有增加,而占用都在 used 里?

corengh avatar Sep 09 '25 03:09 corengh

要用free -h看cache的占用空间

wqshmzh avatar Sep 18 '25 08:09 wqshmzh