wenzhaoabc
wenzhaoabc
没有找到有效的解决方法,改成了fastGPT
> > Bot detected the issue body's language is not English, translate it automatically. > > I asked weakly what the Artifacts in the plug-in are for. I searched Google...
强烈希望增加构建好的镜像
在WebUI的模型启动参数界面,强制指定gpu_index,可以单卡跑多个模型 
vllm默认会将载入模型后剩余的显存全部用来做kv cache,vllm也可以通过参数`--gpu-memory-utilization`控制显存使用率,默认是0.9 > https://github.com/vllm-project/vllm/issues/2430 > https://docs.vllm.ai/en/latest/models/engine_args.html