chenxing comments

Results 16 comments of


                                            chenxing

能否给一个微调Orion-14B-Chat-RAG模型时使用的prompt模板？

> 如题所示，我在想如果使用相同的prompt模板，本地的rag效果应该会更好，谢谢各位大佬们~ 感谢关注。 RAG的prompt: single-turn: Human: Hello!\n\nAssistant: multi-turn: Human: Hello!\n\nAssistant: Hi!Human: How are you?\n\nAssistant: I'm fine 详见：https://huggingface.co/OrionStarAI/Orion-14B-Chat-RAG/blob/main/generation_utils.py

是否能给出一个上下文长度的表格？

> 从文档推测，Base的上下文长度是4096么？是否能给出不同的模型的上下文长度列表？ Orion-14B-Base Orion-14B-Chat Orion-14B-LongChat: 320k. Orion-14B-Chat-RAG: Orion-14B-Chat-Plugin: Orion-14B-Base-Int4: Orion-14B-Chat-Int4: 感谢关注。除了LongChat的版本的上下文不是4096，其他模型的上下文都是4096。

是否能给出一个上下文长度的表格？

> > > 从文档推测，Base的上下文长度是4096么？是否能给出不同的模型的上下文长度列表？ Orion-14B-Base Orion-14B-Chat Orion-14B-LongChat: 320k. Orion-14B-Chat-RAG: Orion-14B-Chat-Plugin: Orion-14B-Base-Int4: Orion-14B-Chat-Int4: > > > > > > 感谢关注。除了LongChat的版本的上下文不是4096，其他模型的上下文都是4096。 > > RAG版本的上下文也是4k吗？请问下RAG使用方式和其他版本有没有什么区别？ RAG也是4k，RAG的使用prompt可以看这里：https://huggingface.co/OrionStarAI/Orion-14B-Chat-RAG/blob/main/generation_utils.py

求求了能不能出个正常点的部署启动方案，流程清晰点的能不能这么折磨人

感谢关注。目前团队正在提供更便捷的推理格式来支持vLLM， llama.cpp等

是否存在刷榜行为？

感谢关注。我们的预训语料包含网络上的公开语料，其中是会包含一些试题和试题解析的数据，因此在回复的时候会生成解析的内容。对于base模型，我们并没有在pretrain之后用大量SFT格式选择题进行训练。chat模型的prompt详见https://huggingface.co/OrionStarAI/Orion-14B-Chat/blob/main/generation_utils.py

请问部署这个模型需要什么机器配置？

> 主要是需要什么显卡，多大显存？如果对内存有要求也请说明一下感谢关注。尽量可以使用H800, A800这类显存80G的显卡。加载14B的模型通常需要28G的显存，加上推理则需要28G以上的显存支持。

为啥没有7b的模型？

感谢关注。团队目前认为7b的模型与14b的模型在理解能力上存在一定的差距。如果是为了降低模型大小的话，使用量化是更好的方案。

What is the technique used to extend the context size to 200,000 tokens?

> _No description provided._ Thanks for your attention. We used a longer context for pre-training as well as some existing extrapolation methods.

长上下文模型Orion-14B-LongChat部署后最大token还是4096怎么解决？

> 长上下文模型Orion-14B-LongChat部署后成功后，最大token还是4096怎么解决？您好，能具体讲一下部署的环境吗？我们这边在vllm环境中部署推理是可以外推更长，之前其他人遇到这种环境是显存不足导致的

长上下文模型Orion-14B-LongChat部署后最大token还是4096怎么解决？

> > > 长上下文模型Orion-14B-LongChat部署后成功后，最大token还是4096怎么解决？ > > > > > > 您好，能具体讲一下部署的环境吗？我们这边在vllm环境中部署推理是可以外推更长，之前其他人遇到这种环境是显存不足导致的 > > 您好，我们是基于vllm+fschat，使用4块80G的GPU并行启动模型，相关软件包版本如下： > > fschat 0.2.36（[https://github.com/lm-sys/FastChat）](https://github.com/lm-sys/FastChat%EF%BC%89) sentence-transformers 2.5.1 tiktoken 0.6.0 tokenizers 0.15.2 torch 2.1.2 transformers 4.38.2 vllm 0.3.0...