很出色的作品，请问多图处理的时候是将图像同时输入进去了，这样的优势是什么？

Open fighterzzzh opened this issue 9 months ago • 1 comments

举个例子，比较两张图像的异同，我可以这样做：

图像 1 送入vllm获取描述1
图像2 送入vllm获取描述2
描述1和2送入llm获取异同
也可以采用多图输入进行比较，这两种方法有什么不同吗，他们的实现有什么不同吗？第一种方法就是多轮对话吗？

Apr 11 '25 06:04 fighterzzzh

你好，

首先，如果三个步骤都是一个会话内进行的（chat），那么就是一个多轮对话，如果是三个会话分别进行，则是单轮对话。如果是第一种方式多轮对话，相当于你的输入第一轮是image1+获取描述1，第二轮是image2+获取描述2，第三轮是比较上面两个图异同；而如果是多图输入进行比较，相当于你的输入只有一轮image1+image2+比较这两个图异同。

Apr 17 '25 09:04 yuecao0119

很出色的作品，请问多图处理的时候是将图像同时输入进去了 ，这样的优势是什么？

很出色的作品，请问多图处理的时候是将图像同时输入进去了，这样的优势是什么？