xwan07017

Results 2 comments of xwan07017

> 目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码,在只测试vits部分的时候,发现当前repo里的export_onnx导出的模型默认是fp32精度下使用,用onnx runtime速度不如原生的pytorch(3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码(因为模型里很多地方hardcode了fp32)。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 > > GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s),即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好,需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。 so, do u exe sucessfully with onnx model? could u show us onnx export...

> > > 目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码,在只测试vits部分的时候,发现当前repo里的export_onnx导出的模型默认是fp32精度下使用,用onnx runtime速度不如原生的pytorch(3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码(因为模型里很多地方hardcode了fp32)。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 > > > GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s),即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好,需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。 > > > > > > so, do u exe sucessfully...