GAU-alpha-pytorch
GAU-alpha-pytorch copied to clipboard
两层GAU替换Attention+MLP在推理速度方面好像是降低了吧
我个人实验了seq=512,KV-Cache的情况下,GAU速度好像要慢吧。