MiniCPM-V icon indicating copy to clipboard operation
MiniCPM-V copied to clipboard

[BUG] <title>ollama 识别图片比较离谱

Open SpacedDot opened this issue 7 months ago • 5 comments

是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?

  • [x] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions

该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?

  • [x] 我已经搜索过FAQ | I have searched FAQ

当前行为 | Current Behavior

将图片的狗识别成鸟: 这张图片展示了一只鸟,它有黄色和绿色的羽毛。这只鸟正用喙将食物放入嘴里。它的身体主要是黄褐色或米色,翅膀上有绿黄色的色调。周围的背景模糊且不清晰可见,因此很难辨认出任何特定的环境细节。焦点完全集中在鸟及其活动上。

期望行为 | Expected Behavior

应该识别成狗

复现方法 | Steps To Reproduce

import ollama

stream = ollama.chat(model='openbmb/minicpm-o2.6:latest', messages=[ { 'role': 'user', 'content': '描述一下这张图', 'images': ['../images/7_dogs.jpg']} ], stream=True)

for chunk in stream: print(chunk['message']['content'], end='', flush=True)

运行环境 | Environment

- OS: macos 16 , m4 芯片
- ollama
- minicpm 2.6-o

备注 | Anything else?

Image

SpacedDot avatar Aug 28 '25 06:08 SpacedDot

https://github.com/tc-mb/ollama/tree/MIniCPM-V 您好,请问是否是用我们提供的稳定版本推理的呢。好像现在官方ollama分支有点问题。

tc-mb avatar Aug 28 '25 09:08 tc-mb

能请问一下这个是哪块的问题吗?llama 3.2 vision 和qwen 2.5 -v 目前测试都是没问题的。

SpacedDot avatar Aug 28 '25 13:08 SpacedDot

我们观察到的是,ollama里面有两个引擎,一个是基于llama.cpp的旧引擎,一个是今年几个月前的新引擎。 好像是前不久的重构,导致旧引擎出错了,受影响的不只最新的MIniCPM-V 4.5。

tc-mb avatar Aug 28 '25 13:08 tc-mb

感谢解答! minicpm-v 4.5 是会报错,这个我看到其他issue 也有提到。 不过 我使用 minicpm 2.6-o 是有回应的,只是返回的内容比较离谱,比如上面的狗的图片,他会识别成鸟,感觉似乎传入的图片数据错乱了。这个没有看到相似的反馈,可能也是您提到的新旧引擎的问题?

SpacedDot avatar Aug 28 '25 13:08 SpacedDot

就我所知,你如果使用ollama应该都受影响。建议你用我给的稳定分支再对照下。或者用llama.cpp跑也行,他们也有server可用。

tc-mb avatar Aug 28 '25 13:08 tc-mb

关于这个问题,我已经找到问题,并提交ollama官方,修复现在已经合并。 https://github.com/ollama/ollama/pull/12168 我先关掉这个issue,如果有问题可以随时再提。

tc-mb avatar Sep 18 '25 05:09 tc-mb