MLServer check for consistency between MLServer and HuggingFace Batch size

check for consistency between MLServer and HuggingFace Batch size

Open saeid93 opened this issue 3 years ago • 0 comments

trafficstars

HuggingFace runtime has a batch_size variable in its setting. This should be checked against the MLServer max_batch_size setting for consistency.

{
    "name": "transformer",
    "implementation": "mlserver_huggingface.HuggingFaceRuntime",
    "max_batch_size": 5,
    "max_batch_time": 1,
    "parameters": {
        "extra": {
            "task": "text-generation",
            "pretrained_model": "distilgpt2",
            "device": 0,
            "batch_size": 5
        }
    }
}

Sep 23 '22 23:09 saeid93

MLServer MLServer copied to clipboard

check for consistency between MLServer and HuggingFace Batch size

MLServer
MLServer copied to clipboard