Retrieval-based-Voice-Conversion-WebUI icon indicating copy to clipboard operation
Retrieval-based-Voice-Conversion-WebUI copied to clipboard

v2模型推理时可能会使输出音频时长被压缩

Open Wanlau opened this issue 2 years ago • 0 comments

windows系统,用的是win一键包(5月份的版本)。使用v2模型进行推理时,可能会使输出音频时长被压缩,导致其音调偏高。更改了推理时的面板上的其他参数,这个问题依然存在。换成其他模型再换回来(或者说重新装载了这个模型),有可能使其恢复正常。我猜测这可能与输入音频的采样率有关,当时使用的输入音频采样率为44100Hz,出现这个问题时,被压缩后的音频时长与原音频时长之比接近400/441 。把输入音源重采样为40000Hz后,在用同一个模型进行推理,就能够正常使用,没有出现这个问题。

Wanlau avatar Jul 07 '23 15:07 Wanlau