潘晓彤
潘晓彤
然后取相应action的value计算v和v'
I have completed fine-tuning in 8 A100 gpus, when loading the ft model by "model=model.to("cuda")" it appeared OOM. And I have set 'os.environ['CUDA_VISIBLE_DEVICES'] = "0,1,2,3,4,5,6,7"' during generation.
我用4张4090部署了Qwen1.5-72B-int4模型,用vllm作为推理框架,对模型进行压力测试。 2并发首字差不多可以在1.5秒内返回。 5并发和10并发,其中2个请求可以在1.5秒内返回,剩余请求都要在5秒甚至10秒后才能返回。 观察gpu显存,已经打满了,请问这种情况是否可以优化?
adjust inference function