InternVL
InternVL copied to clipboard
很出色的作品,请问多图处理的时候是将图像同时输入进去了 ,这样的优势是什么?
举个例子,比较两张图像的异同,我可以这样做:
- 图像 1 送入vllm获取描述1
- 图像2 送入vllm获取描述2
- 描述1和2送入llm获取异同
也可以采用多图输入 进行比较,这两种方法有什么不同吗,他们的实现有什么不同吗?第一种方法就是多轮对话吗?
你好,
首先,如果三个步骤都是一个会话内进行的(chat),那么就是一个多轮对话,如果是三个会话分别进行,则是单轮对话。如果是第一种方式多轮对话,相当于你的输入第一轮是image1+获取描述1,第二轮是image2+获取描述2,第三轮是比较上面两个图异同;而如果是多图输入进行比较,相当于你的输入只有一轮image1+image2+比较这两个图异同。