duanyu
duanyu
+1
+1,同问;之前3月份的时候,flow推理挺快的,现在最新代码推理速度慢了好几倍
我分析了一下flow中各个步骤的推理时长(非流式生成、机器4090),发现首先 estimator cache的初始化非常耗时(>1s),然后每一步的forward_estimator也很耗时(接近0.2s/step),我猜测可能是新引入的cache机制导致推理速度显著变慢。 不过有办法通过改代码让 非流式生成 + 非trt 设定下的推理速度回到之前: 1. 把estimator cache的初始化部分注释掉; 2. 在forward_estimator时,改用self.estimator.forward(x, mask, mu, t, spks, cond)。 测试了一下,flow的推理速度大概能回到0.6s-0.7s。如果还想进一步提速,可以考虑手动修改n_timesteps参数,减少decode steps。
+1,同遇到这个问题!大家有解决方案不?