燃
燃
请确保 message 完全相同,`图片有什么?` 和 `请描述一下这张照片?` 会产生不同的结果。
> 这个会不会跟我设置的某些参数有关呀,比如分词器的参数? 和 tokenizer 没啥关系,请确认一下采样参数完全一致; 还不能解决的话,图片、代码发一下, 我看下
@snowattitude 你好,排查后发现是 prompt 不同导致的,最后一个字符不一样:一个是中文问号,一个是英文问号; 你可以改成一样的试试,祝好。 ``` # 英文问号:这张照片中有一只小熊猫,它正趴在一根木头上。小熊猫的毛色主要是棕色和黑色,面部和四肢是黑色的,身体和耳朵是棕色的。它的耳朵竖立,眼睛大而圆,显得非常可爱。背景中可以看到一些绿色的植物和树枝,环境看起来像是一个自然的栖息地。 # 中文问号:这张照片展示了一只小熊猫。它有着棕色的毛发和白色的面部,看起来非常可爱。小熊猫正趴在一根木头上,背景中可以看到一些绿色的植物。 ``` 另外值得注意的是,根据你展示的代码本地的使用了 process_vision_info 函数,会根据传入的 max pixel 和 min pixel 进行 resize,送入 vLLM 后还会调用一次 hf processor,所以整体预处理是(resize + hf processor);而 vllm serve...
@chiyic 目前使用vllm部署的服务(openai)接口应该是可以正常工作的,只是如果不设置采样参数,输入 url 时vLLM 会默认均匀采样 32 帧,可能会导致效果较差;关于 FPS 的控制可以参考我们最近更行的文档: https://github.com/QwenLM/Qwen3-VL/pull/1644 如果不能解决问题,可以 post 一下你的请求代码,我看下。
> [@wulipc](https://github.com/wulipc) 能否加入Qwen2.5-VL上的那种传递frame list的方式(参考你之前给的调用方式[#806](https://github.com/QwenLM/Qwen3-VL/issues/806#issuecomment-2667817885))?毕竟在传输之前进行采样在逻辑上比较合理,并且现在只能传输一整段视频,稍微大一点的视频转base64很容易特别长而超过请求的限制。 @Byter-s 如果是均匀采样可以尝试传入视频 url 和采样 fps; 如果还有其他 hf 的 processor 的参数,也可以尝试通过 extra_body 传入,有什么问题可以随时反馈。
> You should sample the video frames outside of vLLM. > > You can set `max_pixels` via the `mm_processor_kwargs` key (which is passed alongside `multi_modal_data`) in offline inference. This isn't...
> We don't yet have plans to add this. Feel free to open a PR and contribute to this! @DarkLight1337 OK, let me confirm, the optimal solution is to pass...