Zhihuihuo

Results 1 comments of Zhihuihuo

> > 长上下文模型Orion-14B-LongChat部署后成功后,最大token还是4096怎么解决? > > 您好,能具体讲一下部署的环境吗?我们这边在vllm环境中部署推理是可以外推更长,之前其他人遇到这种环境是显存不足导致的 您好,我们是基于vllm+fschat,使用4块80G的GPU并行启动模型,相关软件包版本如下: fschat 0.2.36(https://github.com/lm-sys/FastChat) sentence-transformers 2.5.1 tiktoken 0.6.0 tokenizers 0.15.2 torch 2.1.2 transformers 4.38.2 vllm 0.3.0 (参考https://github.com/vllm-project/vllm/pull/2539实现对模型的支持) xformers 0.0.23.post1 ##### vllm初始化日志: INFO 03-26 17:19:43 llm_engine.py:72]...