badwoman

Results 1 issues of badwoman

是不是wsl2和vllm有很多兼容性问题?我把 weclone/core/inference/vllm_infer.py 中的 "max_model_len": cutoff_len + max_new_tokens,尽可能改的比较低了,模型也选的是1.5b的,按理来说在显存8g的显卡上用起来没问题,但是老是在kv cache的时候爆显存,有人知道咋回事吗