chenxing
chenxing
> 如题所示,我在想如果使用相同的prompt模板,本地的rag效果应该会更好,谢谢各位大佬们~ 感谢关注。 RAG的prompt: single-turn: Human: Hello!\n\nAssistant: multi-turn: Human: Hello!\n\nAssistant: Hi!Human: How are you?\n\nAssistant: I'm fine 详见:https://huggingface.co/OrionStarAI/Orion-14B-Chat-RAG/blob/main/generation_utils.py
> 从文档推测,Base的上下文长度是4096么? 是否能给出不同的模型的上下文长度列表? Orion-14B-Base Orion-14B-Chat Orion-14B-LongChat: 320k. Orion-14B-Chat-RAG: Orion-14B-Chat-Plugin: Orion-14B-Base-Int4: Orion-14B-Chat-Int4: 感谢关注。除了LongChat的版本的上下文不是4096,其他模型的上下文都是4096。
> > > 从文档推测,Base的上下文长度是4096么? 是否能给出不同的模型的上下文长度列表? Orion-14B-Base Orion-14B-Chat Orion-14B-LongChat: 320k. Orion-14B-Chat-RAG: Orion-14B-Chat-Plugin: Orion-14B-Base-Int4: Orion-14B-Chat-Int4: > > > > > > 感谢关注。除了LongChat的版本的上下文不是4096,其他模型的上下文都是4096。 > > RAG版本的上下文也是4k吗?请问下RAG使用方式和其他版本有没有什么区别? RAG也是4k,RAG的使用prompt可以看这里:https://huggingface.co/OrionStarAI/Orion-14B-Chat-RAG/blob/main/generation_utils.py
感谢关注。目前团队正在提供更便捷的推理格式来支持vLLM, llama.cpp等
感谢关注。我们的预训语料包含网络上的公开语料,其中是会包含一些试题和试题解析的数据,因此在回复的时候会生成解析的内容。对于base模型,我们并没有在pretrain之后用大量SFT格式选择题进行训练。chat模型的prompt详见https://huggingface.co/OrionStarAI/Orion-14B-Chat/blob/main/generation_utils.py
> 主要是需要什么显卡,多大显存? 如果对内存有要求也请说明一下 感谢关注。尽量可以使用H800, A800这类显存80G的显卡。加载14B的模型通常需要28G的显存,加上推理则需要28G以上的显存支持。
感谢关注。团队目前认为7b的模型与14b的模型在理解能力上存在一定的差距。如果是为了降低模型大小的话,使用量化是更好的方案。
> _No description provided._ Thanks for your attention. We used a longer context for pre-training as well as some existing extrapolation methods.
> 长上下文模型Orion-14B-LongChat部署后成功后,最大token还是4096怎么解决? 您好,能具体讲一下部署的环境吗?我们这边在vllm环境中部署推理是可以外推更长,之前其他人遇到这种环境是显存不足导致的
> > > 长上下文模型Orion-14B-LongChat部署后成功后,最大token还是4096怎么解决? > > > > > > 您好,能具体讲一下部署的环境吗?我们这边在vllm环境中部署推理是可以外推更长,之前其他人遇到这种环境是显存不足导致的 > > 您好,我们是基于vllm+fschat,使用4块80G的GPU并行启动模型,相关软件包版本如下: > > fschat 0.2.36([https://github.com/lm-sys/FastChat)](https://github.com/lm-sys/FastChat%EF%BC%89) sentence-transformers 2.5.1 tiktoken 0.6.0 tokenizers 0.15.2 torch 2.1.2 transformers 4.38.2 vllm 0.3.0...