codebear

Results 1 comments of codebear

> 可以通过将更多experts放在GPU上的方法利用显存,但目前此方法与CUDA Graph冲突,会导致成倍的性能下降,导致利用更多显存甚至不如当前默认速度。 与CUDA Graph兼容的experts算子正在开发中,不过会晚一段时间 我试着修改KExpertsMarlin,试图让他与CUDA Graph兼容,但是并没有起效