lmdeploy icon indicating copy to clipboard operation
lmdeploy copied to clipboard

[Feature] 支持Triton版本FA V2

Open zhangxiao-stack opened this issue 1 year ago • 1 comments

Motivation

经过测试对比,Triton FA测试性能比较好,是否可以支持呢?

Related resources

No response

Additional context

No response

zhangxiao-stack avatar Apr 18 '24 10:04 zhangxiao-stack

有具体的对比方案以及数据吗? 目前 pytorch engine 这边 decoding 的瓶颈主要是在 host 这边,perfill 由于做了 split and slice 实际上 Linear 的开销要远大于 attention。最好是能有相关数据评估一下

grimoire avatar Apr 19 '24 05:04 grimoire