wqshmzh comments

Results 8 comments of


                                            wqshmzh

希望作者考虑按照我的设计思路增加对deepseek-R1-671B及类deepseek-R1-671B的Moe模型的支持

生成每一个token的时候都会选择不同的专家，虽然可能会有一些热门专家每次都被选择，但并不代表每次推理被选中的专家都是那几个热门专家，总会有冷门专家需要被转移到显存，同时显存中最冷门的专家被转移回内存。随着推理进行，需要频繁地经过PCIE通道对冷门专家进行显存和内存的对拷，而PCIE通道的带宽在目前为止是很窄的，PCIE4.0 x16单向只有32GB/s，远低于双通道DDR5内存，更不用说显存，那么冷门专家在内存和显存之间的转移时间就会比较长，从而极大影响生成速度。。。你这个方法我猜测速度更慢

[Bug] Why AMX speed down?

首先，AMX只加速prefill过程其次，相同配置下，BF16的生成速度要是比Q4快那你可以领图灵奖了

Error after chat ：IndexError: index out of range in self

解决了吗？我在0.3.2版本也遇到这个问题了

[Bug] 在Ubuntu下编译失败

首先执行XXX bash install.sh 2>&1 | tee build.log，将编译过程中的所有输出写入到build.log文件中，构建结束后，使用cat build.log | grep error查看哪里出错了，如果看不出来，则尝试将error改为其他关键词找错，比如not found。解决了错误后，一定要将balance_serve构建的缓存文件全部清除，即手动删除csrc/balance_serve/build文件夹，也可以将“rm -rf csrc/balance_serve/build”这一句写入install.sh文件中。官方写的install.sh并没有清理balance_serve的编译缓存，不知道官方为什么不写，还得各种给官方debug，浪费了好多时间。

与自定义业务逻辑交互

好的，谢谢分享

模型大小140G，设备内存256G，不开启 NUMA，内存占用为什么只有4G左右？

要用free -h看cache的占用空间

[Bug] ktransformer0.24运行deepseek_q4_km爆内存

用了NUMA了，运行时模型会占用x2的内存。看这个视频https://www.bilibili.com/video/BV1kV8AzKEjJ/ ，有人改了KT，可以做到开启NUMA只占1份内存。另外Q4可以被FastLLM支持，开启NUMA也只占用1份内存，如果不想死磕KT，建议用FastLLM。

[Regression] 580.105.08: DisplayPort monitor limited to 1920x1080 instead of native 2560x1440

Can CONFIRM this issue. My second 2K monitor connected via HDMI is always limited in 1920x1080@60Hz mode without any chance to set to 2K@75Hz after installing 580.105.08 driver. The old...