HIT-Owen

Results 1 issues of HIT-Owen

**Describe the bug** What the bug is, and how to reproduce, better with screenshots(描述bug以及复现过程,最好有截图) 将vllm版本从0.3.1升级到0.4.0后,使用swift部署模型,在相同模型、相同prompt的情况下,服务请求时间明显变长(2倍以上),server部署命令参数没有做任何修改 CUDA_VISIBLE_DEVICES=1 swift deploy --model_type qwen1half-7b-chat \ --model_cache_dir /data/ssd/LLM_models/qwen/Qwen1.5-7B-Chat \ --infer_backend vllm \ --use_flash_attn true \...

bug