FastDeploy
FastDeploy copied to clipboard
多个推理实例如何在一个GPU上推理
请问多个推理实在一个GPU上推理应该如何设置呢?
是服务化推理还是直接推理呢,如果每个推理实例是一个进程,那指定同一张GPU卡就可以吧