littlerokie

Results 3 comments of littlerokie

> 你需要搭建推理引擎,并发需要靠batchsize来并行,无论是写多worker还是异步用处为0。多个任务塞到gpu里,gpu并不会并行处理,他会并发处理,但是并发不是并行。_并发不会加速_ 只会实现推1条1秒,推两条2秒后同时结束,而不是1秒结束一条。想要实现1秒推1条,然后1秒推两条,然后1秒推三条,即真正利用gpu并行,才能加速。 想要并行,需要把多个请求塞到一个batch里处理,或者使用更高级的技术,例如continuous batching,但是continuous batching在gsv下很难实现,理由是gsv是基于右padding,而右padding的结果是batchsize上去了如果参考音频有长有短,短的参考音频的padding 在参考和推理的音频token距离过大,会影响效果,具体表现是漏字等。 我们搭建了gsv的推理引擎但我们并没有将其开源,因为推理引擎是企业部署才需要的东西。具体使用可以在tts.yomio.ai尝试,我很欢迎技术上的交流。 #1689 这样能提升并行的推理能力么

> 治标不治本,多worker提升利用率只是因为是CPU Bound,事实上多Worker是最低效的方式 多worker 的形式 和 负载均衡 + 多起api_v2.py 效果一样么 还是 后者会更好一些呢