[BUG] <title>ollama 识别图片比较离谱
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
- [x] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions
该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?
- [x] 我已经搜索过FAQ | I have searched FAQ
当前行为 | Current Behavior
将图片的狗识别成鸟: 这张图片展示了一只鸟,它有黄色和绿色的羽毛。这只鸟正用喙将食物放入嘴里。它的身体主要是黄褐色或米色,翅膀上有绿黄色的色调。周围的背景模糊且不清晰可见,因此很难辨认出任何特定的环境细节。焦点完全集中在鸟及其活动上。
期望行为 | Expected Behavior
应该识别成狗
复现方法 | Steps To Reproduce
import ollama
stream = ollama.chat(model='openbmb/minicpm-o2.6:latest', messages=[ { 'role': 'user', 'content': '描述一下这张图', 'images': ['../images/7_dogs.jpg']} ], stream=True)
for chunk in stream: print(chunk['message']['content'], end='', flush=True)
运行环境 | Environment
- OS: macos 16 , m4 芯片
- ollama
- minicpm 2.6-o
备注 | Anything else?
https://github.com/tc-mb/ollama/tree/MIniCPM-V 您好,请问是否是用我们提供的稳定版本推理的呢。好像现在官方ollama分支有点问题。
能请问一下这个是哪块的问题吗?llama 3.2 vision 和qwen 2.5 -v 目前测试都是没问题的。
我们观察到的是,ollama里面有两个引擎,一个是基于llama.cpp的旧引擎,一个是今年几个月前的新引擎。 好像是前不久的重构,导致旧引擎出错了,受影响的不只最新的MIniCPM-V 4.5。
感谢解答! minicpm-v 4.5 是会报错,这个我看到其他issue 也有提到。 不过 我使用 minicpm 2.6-o 是有回应的,只是返回的内容比较离谱,比如上面的狗的图片,他会识别成鸟,感觉似乎传入的图片数据错乱了。这个没有看到相似的反馈,可能也是您提到的新旧引擎的问题?
就我所知,你如果使用ollama应该都受影响。建议你用我给的稳定分支再对照下。或者用llama.cpp跑也行,他们也有server可用。
关于这个问题,我已经找到问题,并提交ollama官方,修复现在已经合并。 https://github.com/ollama/ollama/pull/12168 我先关掉这个issue,如果有问题可以随时再提。