XXXXRT666
XXXXRT666
只是因为之前就是这么PAD的😂文本PAD到定长,然后拼接上音频
因为pytorch不支持kv_len,必须一样长,如果flash attn支持的话就不用PAD了
我完成了一个[batch的CUDA Graph加速](https://github.com/XXXXRT666/GPT-SoVITS/blob/CUDAGrpah&Compile/GPT_SoVITS/AR/models/t2s_model_flash_attn.py), AMD EPYC 7642 48C + 4090 能做到4倍多加速(90 it/s -> 400 it/s maximum), BS = 20, 推理时候sm占用率80-90%, 显存带宽占用在50-60% CUDA Graph: Naive implement: 这一加速整体推理的瓶颈反而在bert了,文本1400字 3.301 11.755 4.161 0.668
我写了,你直接去仓库里看看就知道了
python gen_audio.py --cuda-graph
序列开头的 [CLS] 标记和序列结尾的 [SEP] 标记?
gradio版本不要动