HIT-Owen issues

Repositories
Issues
Comments

Results 1 issues of


                                            HIT-Owen

将vllm版本从0.3.1升级到0.4.0后，使用swift部署模型，服务请求时间明显变长

**Describe the bug** What the bug is, and how to reproduce, better with screenshots(描述bug以及复现过程，最好有截图) 将vllm版本从0.3.1升级到0.4.0后，使用swift部署模型，在相同模型、相同prompt的情况下，服务请求时间明显变长（2倍以上），server部署命令参数没有做任何修改 CUDA_VISIBLE_DEVICES=1 swift deploy --model_type qwen1half-7b-chat \ --model_cache_dir /data/ssd/LLM_models/qwen/Qwen1.5-7B-Chat \ --infer_backend vllm \ --use_flash_attn true \...

bug