lmdeploy
lmdeploy copied to clipboard
[Feature] 支持Triton版本FA V2
Motivation
经过测试对比,Triton FA测试性能比较好,是否可以支持呢?
Related resources
No response
Additional context
No response
有具体的对比方案以及数据吗? 目前 pytorch engine 这边 decoding 的瓶颈主要是在 host 这边,perfill 由于做了 split and slice 实际上 Linear 的开销要远大于 attention。最好是能有相关数据评估一下