another1s comments

Results 13 comments of


                                            another1s

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5，启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

遇到了类似的问题，采用了stop_tokens_id 后，原先的eot token消失了，但仍然生成了大量的空格。似乎每次推理一定要生成到限定的max token数才会停止。请问一下这个该怎么解决呢 @whyiug

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5，启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

> > > @1223243 https://github.com/vllm-project/vllm/blob/cf2a1a4d9d8168d2e8e7bef244c1dfec80780405/examples/offline_inference_vision_language.py#L83C1-L84C1 > > > > > > 感谢您的回复，但我现在使用这种方式启动vllm，CUDA_VISIBLE_DEVICES=2 python -m vllm.entrypoints.openai.api_server \ --model /home/nlp/xc/NLP/LLM/openLLM/MiniCPM-Llama3-V-2_5 \ --tensor-parallel-size=2 \ --port 8088 \ --trust-remote-code，他提示报错说不支持这个模型，我是通过pip install vllm安装的，vllm版本是 0.5.3.post1，请问你又遇到这个情况吗 > >...

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5，启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

> > vllm serve的形式好像不支持hf下载的量化模型权重，原始的倒是支持。只不过在推理时候看起来是一直要生成到max tokens 的数值才会停止？这个有什么好办法解决吗 > > 量化的可能需要再等等哈，原始的可以在请求的时候加 stop_token_ids，以下是一个2.5的请求样例 > > ```python > chat_response = client.chat.completions.create( > model="openbmb/MiniCPM-Llama3-V-2_5", > messages=[{ > "role": "user", > "content": [ > # NOTE:...

another1s

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5， 启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5， 启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5， 启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5，启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5，启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>

[BUG] <使用vLLM 运行MiniCPM-Llama3-V-2_5，启动后台服务后，使用OpenAI chat API,返回的推理结果里有大量 <|eot_id|>>