wqshmzh
wqshmzh
生成每一个token的时候都会选择不同的专家,虽然可能会有一些热门专家每次都被选择,但并不代表每次推理被选中的专家都是那几个热门专家,总会有冷门专家需要被转移到显存,同时显存中最冷门的专家被转移回内存。随着推理进行,需要频繁地经过PCIE通道对冷门专家进行显存和内存的对拷,而PCIE通道的带宽在目前为止是很窄的,PCIE4.0 x16单向只有32GB/s,远低于双通道DDR5内存,更不用说显存,那么冷门专家在内存和显存之间的转移时间就会比较长,从而极大影响生成速度。。。你这个方法我猜测速度更慢
首先,AMX只加速prefill过程 其次,相同配置下,BF16的生成速度要是比Q4快那你可以领图灵奖了
解决了吗?我在0.3.2版本也遇到这个问题了
首先执行XXX bash install.sh 2>&1 | tee build.log,将编译过程中的所有输出写入到build.log文件中,构建结束后,使用cat build.log | grep error查看哪里出错了,如果看不出来,则尝试将error改为其他关键词找错,比如not found。解决了错误后,一定要将balance_serve构建的缓存文件全部清除,即手动删除csrc/balance_serve/build文件夹,也可以将“rm -rf csrc/balance_serve/build”这一句写入install.sh文件中。官方写的install.sh并没有清理balance_serve的编译缓存,不知道官方为什么不写,还得各种给官方debug,浪费了好多时间。
好的,谢谢分享
要用free -h看cache的占用空间
用了NUMA了,运行时模型会占用x2的内存。看这个视频https://www.bilibili.com/video/BV1kV8AzKEjJ/ ,有人改了KT,可以做到开启NUMA只占1份内存。另外Q4可以被FastLLM支持,开启NUMA也只占用1份内存,如果不想死磕KT,建议用FastLLM。
Can CONFIRM this issue. My second 2K monitor connected via HDMI is always limited in 1920x1080@60Hz mode without any chance to set to 2K@75Hz after installing 580.105.08 driver. The old...