xwan07017 comments

Results 2 comments of


                                            xwan07017

模型转tensorrt加速，有大佬成功吗？

> 目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码，在只测试vits部分的时候，发现当前repo里的export_onnx导出的模型默认是fp32精度下使用，用onnx runtime速度不如原生的pytorch（3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码（因为模型里很多地方hardcode了fp32）。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 > > GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s)，即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好，需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。 so, do u exe sucessfully with onnx model? could u show us onnx export...

模型转tensorrt加速，有大佬成功吗？

> > > 目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码，在只测试vits部分的时候，发现当前repo里的export_onnx导出的模型默认是fp32精度下使用，用onnx runtime速度不如原生的pytorch（3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码（因为模型里很多地方hardcode了fp32）。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 > > > GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s)，即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好，需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。 > > > > > > so, do u exe sucessfully...