LIUKAI0815
Results
23
comments of
LIUKAI0815
Thank you
用vllm跑不起来OOM也是没办法,kv cache挺大的,希望能支持,我就跑量化的 flash_attn只有最新2.8.3的才支持torch 2.8 vllm最新的只支持torch 2.8 但是kv cache量化要求flash_attn
> lmdeploy是老卡的科技之光 感觉很难,现在没有迹象会适配。llama.cpp也没适配