ktransformers
ktransformers copied to clipboard
模型大小140G,设备内存256G,不开启 NUMA,内存占用为什么只有4G左右?
CPU:INTEL XEON PLATINUM 8582C 2.6GHZ 60核 内存:DDR5-5600 32G × 8 显卡:NVIDIA GeForce RTX 3090 24G × 2 系统:Ubuntu 24.04 KTranformers 版本:0.3.2 加载模型:DeepSeek-R1-UD-IQ1_S(140.23G)
双路主板,但是目前只使用了一路 CPU。
编译时不使用 export USE_NUMA=1 ,运行时内存占用只有 4G 左右,显存占用 12-13G(不使用 balance)或 15-16G(使用 balance),decode 13 Tokens/s 左右。
编译时开启 NUMA,运行时内存占用 236G 左右,其它方面包括性能表现和不开启没有差异,反而因为剩余内存较低,感觉有些卡顿。
求解的疑惑是:
- 不开启 NUMA 为什么内存占用这么低?这正常吗?
- 开启后性能没有得到提升,是因为只使用了单路并且内存不够充足吗?
free -h
看buffer/cache,主要内存占用在这里
free -h 看buffer/cache,主要内存占用在这里
嗯,我也有观察到这块的变化,也就是加载到 buffer/cache 里是正常的是吗?但是为什么开启 NUMA 后,buffer/cache 没有增加,而占用都在 used 里?
要用free -h看cache的占用空间