XXXXRT666
XXXXRT666
Download the latest version
If you have your own env, then stop using the bat file
参考install.sh里的安装流程
pyopenjtalk推理日语也需要
use anaconda instead of miniconda, reinstall it
conda create -n GPTSoVITS python=3.10 && conda activate GPTSoVITS
我实现了一个batch infer的CUDA Graph推理,但flash attn好像不支持padding mask,用的是padding未推理部分加上max sequence length的kv送到torch的SDPA里进行计算,这样的话推理可以在BS20时从80it/s翻倍到CUDA Graph的190it/s,用torch compile则是225it/s,想问一下这种还有什么优化空间吗
那请问他能实现这种效果吗 XXX PAD PAD YYY XXXX PAD YYY 其中,X是文本,Y是参考,因为PAD的Token在中间,我尝试了许多框架,好像基本上都不支持 在infer_panel naive中没这个问题,我估计他的SDPA会忽略KV Cache中超过Cache Lens的部分?而不是像torch是计算完了应用mask,这里两种方式速度差别应该挺明显
> 另外,我理解你可能是用了一个很长的 kc_cache,如果使用SDPA,可以看看最大长度缩减到200有没有提高。 我用的是2500的kv,倒是可以试试看分段捕获或者compile🤔,多存几个kv cache也不会有多大
如果他cache len能用(bs,1)的张量来描述倒是迎刃而解了,不用padding可以直接推理