FasterTransformer llama support inference？

llama support inference？

Open double-vin opened this issue 2 years ago • 2 comments

May I ask when FastertTransformer can support llama's C++inference？

Jul 24 '23 09:07 double-vin

Based on FasterTransformer, we have implemented an efficient inference engine - TurboMind, supporting both llama and llama-2

Jul 25 '23 04:07 lvhan028

FasterTransformer development has transitioned to TensorRT-LLM. TensorRT-LLM has supported LLaMa. Please take a try.

Oct 20 '23 07:10 byshiue