Hongzhi Wen comments

Results 7 comments of


                                            Hongzhi Wen

参考音频时长可以是1分钟么？10秒太短了

我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟，且生成的文字比较短，那么生成的音频会很拖沓。如果生成的文字很长，那么会有显存以及hallucination方面的问题，按照作者的建议是以50字为单位切分开

目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码，在只测试vits部分的时候，发现当前repo里的export_onnx导出的模型默认是fp32精度下使用，用onnx runtime速度不如原生的pytorch（3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码（因为模型里很多地方hardcode了fp32）。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s)，即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好，需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。

模型转tensorrt加速，有大佬成功吗？

> > 目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码，在只测试vits部分的时候，发现当前repo里的export_onnx导出的模型默认是fp32精度下使用，用onnx runtime速度不如原生的pytorch（3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码（因为模型里很多地方hardcode了fp32）。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 > > GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s)，即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好，需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。 > > so, do u exe sucessfully with onnx model? could u show...

Hongzhi Wen

参考音频时长可以是1分钟么？10秒太短了

模型转tensorrt加速，有大佬成功吗？

模型转tensorrt加速，有大佬成功吗？

Custom attention bias

[v2] Attention Masking

Errors with Installation

Errors with Installation