LIUKAI0815 comments

Results 23 comments of


                                            LIUKAI0815

Thank you

用vllm跑不起来OOM也是没办法，kv cache挺大的，希望能支持，我就跑量化的 flash_attn只有最新2.8.3的才支持torch 2.8 vllm最新的只支持torch 2.8 但是kv cache量化要求flash_attn

> lmdeploy是老卡的科技之光感觉很难，现在没有迹象会适配。llama.cpp也没适配