Hongzhi Wen

Results 7 comments of Hongzhi Wen

我的理解是不可以。目前版本reference音频会影响output音频的长度。如果reference有一分钟,且生成的文字比较短,那么生成的音频会很拖沓。如果生成的文字很长,那么会有显存以及hallucination方面的问题,按照作者的建议是以50字为单位切分开

目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码,在只测试vits部分的时候,发现当前repo里的export_onnx导出的模型默认是fp32精度下使用,用onnx runtime速度不如原生的pytorch(3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码(因为模型里很多地方hardcode了fp32)。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s),即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好,需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。

> > 目前版本onnx本身应该还要做很多优化吧。我自己写的onnx inference代码,在只测试vits部分的时候,发现当前repo里的export_onnx导出的模型默认是fp32精度下使用,用onnx runtime速度不如原生的pytorch(3.6s -> 4.2s)。改成fp16需要修改模型里的很多代码(因为模型里很多地方hardcode了fp32)。改完以后速度反而更慢了 (4.2s -> 5.48s)。后来调了一些runtime相关的设定才比原来的torch好一点点。 > > GPT部分改用onnx runtime以后会观察到显著的速度降低(3.5s -> 15s),即使改用io binding也没有改善。你提到的tensorrt的error是因为这框架对transformer这种输入size可变的模型的支持不是很好,需要针对模型做专门的调整。目前总的来说onnx这一块还没有正式支持的感觉。 > > so, do u exe sucessfully with onnx model? could u show...

Hi, there! I am willing to help with the testing. ------ _RTX 4090_ I tried on 4090 (built with CUDA12.1 and your [latest branch](https://github.com/catie-aq/flash-attention/tree/trainable-bias)). It ends up with `111 failed,...

> flash_attn/flash_attn_triton.py support bias input you can use bias=-inf This is a good point but the example itself is not working with pytorch2.0+ (

The installation of dgl is not valid on HPCC systems. After the installation, dependency issue is raised: ``` from dance.datasets.multimodality import ModalityMatchingDataset Traceback (most recent call last): File "", line...

`export LD_LIBRARY=~/anaconda3/lib` (replacing the path with lib directory that contains module files) can solve the issue above. We need to remind HPCC users about this. The HPC users may need...