xing zhou

Results 2 comments of xing zhou

> 推理部分之前的版本的历史问题目前没有在维护了,推理部分的设计都集中在 sglang+kt-kernel 了,你可以参考 FAQ 查看使用: [#1608](https://github.com/kvcache-ai/ktransformers/issues/1608) llamafile的qxk部分的权重支持目前还有点bug,得稍微等等 @KMSorSMS 感谢回复,那kt-kernel 推理后续还会支持注入规则的yaml配置吗,KLinearTorch、KLinearMarlin、KExpertsTorch、KExpertsMarlin这些算子还继续继承使用的吗, 还是说kt-kernel 后端只支持CPU推理,GPU推理都由sglang完成

@DwyaneShi Thanks for indication. Is the client-side cache within vineyard's client also use DRAM of the host machine where it is located? Does hot kv blocks in the client-side cache...