another1s
another1s
遇到了类似的问题,采用了stop_tokens_id 后,原先的eot token消失了,但仍然生成了大量的空格。似乎每次推理一定要生成到限定的max token数才会停止。请问一下这个该怎么解决呢 @whyiug
> > > @1223243 https://github.com/vllm-project/vllm/blob/cf2a1a4d9d8168d2e8e7bef244c1dfec80780405/examples/offline_inference_vision_language.py#L83C1-L84C1 > > > > > > 感谢您的回复,但我现在使用这种方式启动vllm,CUDA_VISIBLE_DEVICES=2 python -m vllm.entrypoints.openai.api_server \ --model /home/nlp/xc/NLP/LLM/openLLM/MiniCPM-Llama3-V-2_5 \ --tensor-parallel-size=2 \ --port 8088 \ --trust-remote-code,他提示报错说不支持这个模型,我是通过pip install vllm安装的,vllm版本是 0.5.3.post1,请问你又遇到这个情况吗 > >...
> > vllm serve的形式好像不支持hf下载的量化模型权重,原始的倒是支持。只不过在推理时候看起来是一直要生成到max tokens 的数值才会停止?这个有什么好办法解决吗 > > 量化的可能需要再等等哈,原始的可以在请求的时候加 stop_token_ids,以下是一个2.5的请求样例 > > ```python > chat_response = client.chat.completions.create( > model="openbmb/MiniCPM-Llama3-V-2_5", > messages=[{ > "role": "user", > "content": [ > # NOTE:...