XXXXRT666

Results 297 comments of


                                            XXXXRT666

V4版本推理界面无法正常打开

Download the latest version

使用整合包GPT-SoVITS-v3lora-20250228-nvidia50时无法运行go-webui.bat，gradio_client出现错误

If you have your own env, then stop using the bat file

colab又出问题，训练不了了

参考install.sh里的安装流程

colab又出问题，训练不了了

pyopenjtalk推理日语也需要

colab又出问题，训练不了了

use anaconda instead of miniconda, reinstall it

colab又出问题，训练不了了

conda create -n GPTSoVITS python=3.10 && conda activate GPTSoVITS

CUDA Graph性能优化

我实现了一个batch infer的CUDA Graph推理，但flash attn好像不支持padding mask，用的是padding未推理部分加上max sequence length的kv送到torch的SDPA里进行计算，这样的话推理可以在BS20时从80it/s翻倍到CUDA Graph的190it/s，用torch compile则是225it/s，想问一下这种还有什么优化空间吗

CUDA Graph性能优化

那请问他能实现这种效果吗 XXX PAD PAD YYY XXXX PAD YYY 其中，X是文本，Y是参考，因为PAD的Token在中间，我尝试了许多框架，好像基本上都不支持在infer_panel naive中没这个问题，我估计他的SDPA会忽略KV Cache中超过Cache Lens的部分？而不是像torch是计算完了应用mask，这里两种方式速度差别应该挺明显

CUDA Graph性能优化

> 另外，我理解你可能是用了一个很长的 kc_cache，如果使用SDPA，可以看看最大长度缩减到200有没有提高。我用的是2500的kv，倒是可以试试看分段捕获或者compile🤔，多存几个kv cache也不会有多大

CUDA Graph性能优化

如果他cache len能用（bs，1）的张量来描述倒是迎刃而解了，不用padding可以直接推理

‹
1
2
...
21
22
23
24
25
26
27
28
29
30
›