XXXXRT666 comments

Results 297 comments of


                                            XXXXRT666

CUDA Graph性能优化

因为pytorch不支持kv_len，必须一样长，如果flash attn支持的话就不用PAD了

我完成了一个[batch的CUDA Graph加速](https://github.com/XXXXRT666/GPT-SoVITS/blob/CUDAGrpah&Compile/GPT_SoVITS/AR/models/t2s_model_flash_attn.py), AMD EPYC 7642 48C + 4090 能做到4倍多加速(90 it/s -> 400 it/s maximum), BS = 20, 推理时候sm占用率80-90%, 显存带宽占用在50-60% CUDA Graph: Naive implement: 这一加速整体推理的瓶颈反而在bert了,文本1400字 3.301 11.755 4.161 0.668

CUDA Graph性能优化

我写了，你直接去仓库里看看就知道了

CUDA Graph性能优化

python gen_audio.py --cuda-graph

IndexError: index 510 is out of bounds for dimension 0 with size 510

序列开头的 [CLS] 标记和序列结尾的 [SEP] 标记?

文本中有字母和符号报错了

gradio版本不要动