TigerBot icon indicating copy to clipboard operation
TigerBot copied to clipboard

啥时候适配vllm框架呢?

Open xxm1668 opened this issue 1 year ago • 3 comments
trafficstars

xxm1668 avatar Dec 06 '23 09:12 xxm1668

TigerBot模型基于llama-2架构,vllm适配了 meta-llama/Llama-2-70b-hf 架构,可以参考vllm的quickstart。 另外,想适配vllm一般是有serve模型的需求,可以考虑使用TGI, TGI中的fast_llama_modeling中集成了flash_attn与vllm,第一个token的生成使用了flash_attn,后续token使用了vllm。 https://github.com/huggingface/text-generation-inference/blob/3238c49121b02432bf2938c6ebfd44f06c5adc2f/server/text_generation_server/models/custom_modeling/flash_llama_modeling.py#L291-L313

i4never avatar Dec 07 '23 02:12 i4never

您好,我在前几天实现了tigerbot模型适配vllm,主要是适配了jinja脚本的前缀,您可以来看我这一篇博文:https://www.cnblogs.com/alphainf/p/17884055.html

AlphaINF avatar Dec 17 '23 16:12 AlphaINF

谢谢大佬

xxm1668 avatar Dec 18 '23 00:12 xxm1668