sherpa whisper 并发推理问题

whisper 并发推理问题

Open xqun3 opened this issue 5 months ago • 2 comments

Hi @yuekaizhang，感谢分享代码，很棒的工作！

但是我在实际部署使用时发现一个问题，模型在部署以后，发起并发调用，并没有看到batch的效果，而是按照并发的大小推理时间成倍增加，是因为本身的实现并不支持triton组batch？我的batch相关配置如下：

dynamic_batching {
    preferred_batch_size: [ 4, 8]
    max_queue_delay_microseconds: 100
  }

Sep 23 '24 09:09 xqun3