sherpa
sherpa copied to clipboard
whisper 并发推理问题
Hi @yuekaizhang,感谢分享代码,很棒的工作!
但是我在实际部署使用时发现一个问题,模型在部署以后,发起并发调用,并没有看到batch的效果,而是按照并发的大小推理时间成倍增加,是因为本身的实现并不支持triton组batch?我的batch相关配置如下:
dynamic_batching {
preferred_batch_size: [ 4, 8]
max_queue_delay_microseconds: 100
}