v2模型推理时可能会使输出音频时长被压缩

Open Wanlau opened this issue 2 years ago • 0 comments

windows系统，用的是win一键包（5月份的版本）。使用v2模型进行推理时，可能会使输出音频时长被压缩，导致其音调偏高。更改了推理时的面板上的其他参数，这个问题依然存在。换成其他模型再换回来（或者说重新装载了这个模型），有可能使其恢复正常。我猜测这可能与输入音频的采样率有关，当时使用的输入音频采样率为44100Hz，出现这个问题时，被压缩后的音频时长与原音频时长之比接近400/441 。把输入音源重采样为40000Hz后，在用同一个模型进行推理，就能够正常使用，没有出现这个问题。

Jul 07 '23 15:07 Wanlau