lxz-liu-666

Results 2 comments of lxz-liu-666

> 用了NUMA了,运行时模型会占用x2的内存。看这个视频https://www.bilibili.com/video/BV1kV8AzKEjJ/ ,有人改了KT,可以做到开启NUMA只占1份内存。另外Q4可以被FastLLM支持,开启NUMA也只占用1份内存,如果不想死磕KT,建议用FastLLM。 不对啊。我之前试过用win10系统的,当时是RTX3090*2,ddr4 512G 的,当时是安装的v0.23版本,开启后不用占2份内存,只是运行速度太慢了,2.5token/s,所以我才用了新配置,并且用了ubuntun系统。

> 用了NUMA了,运行时模型会占用x2的内存。看这个视频https://www.bilibili.com/video/BV1kV8AzKEjJ/ ,有人改了KT,可以做到开启NUMA只占1份内存。另外Q4可以被FastLLM支持,开启NUMA也只占用1份内存,如果不想死磕KT,建议用FastLLM。 我现在在尝试下载他的补丁,看能不能操作回来。