lmdeploy
lmdeploy copied to clipboard
高并发推理效果变差的问题
有没有人遇到过资源一定的情况下,线上请求流量过大,造成模型推理效果变差的问题?这个可能是什么原因呢
什么模型,多大的并发呢?
不確定是什麼原因, 轉成turbomind後測試過的模型推理能力(特別在tools calling)都肉眼可見的變差。
這是 lm studio gguf qwen3-coder q4
這是lmdeploy
也測試過用vllm 測試同一個AWQ model, 結果都是vllm 成功的prompt, 來到lmdeploy就失敗