LIUKAI0815

Results 23 comments of LIUKAI0815

用vllm跑不起来OOM也是没办法,kv cache挺大的,希望能支持,我就跑量化的 flash_attn只有最新2.8.3的才支持torch 2.8 vllm最新的只支持torch 2.8 但是kv cache量化要求flash_attn

> lmdeploy是老卡的科技之光 感觉很难,现在没有迹象会适配。llama.cpp也没适配