InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

很出色的作品,请问多图处理的时候是将图像同时输入进去了 ,这样的优势是什么?

Open fighterzzzh opened this issue 8 months ago • 1 comments

举个例子,比较两张图像的异同,我可以这样做:

  1. 图像 1 送入vllm获取描述1
  2. 图像2 送入vllm获取描述2
  3. 描述1和2送入llm获取异同
    也可以采用多图输入 进行比较,这两种方法有什么不同吗,他们的实现有什么不同吗?第一种方法就是多轮对话吗?

fighterzzzh avatar Apr 11 '25 06:04 fighterzzzh

你好,

首先,如果三个步骤都是一个会话内进行的(chat),那么就是一个多轮对话,如果是三个会话分别进行,则是单轮对话。如果是第一种方式多轮对话,相当于你的输入第一轮是image1+获取描述1,第二轮是image2+获取描述2,第三轮是比较上面两个图异同;而如果是多图输入进行比较,相当于你的输入只有一轮image1+image2+比较这两个图异同

yuecao0119 avatar Apr 17 '25 09:04 yuecao0119