InternVL v1_2多图微调问题

非常厉害的模型，我这边主要有两个问题想要请教下： 1.第一个问题就是标题中的问题，1.2版本是否支持多图输入的微调呢？具体而言，在第一轮对话中给出多张图像及问答对的微调形式是否可行呢？大概是这个意思： { "id": 0, "image": "images/5.png","images/6.png","images/7.png", "conversations": [ { "from": "human", "value": "\n第一轮对话的问题" }, { "from": "gpt", "value": "第一轮对话的回答" }, { "from": "human", "value": "第二轮对话的问题" }, { "from": "gpt", "value": "第二轮对话的回答" } ] } 2.第二个问题是关于模型的性能，看其他issue中有说到实际上1.2版本使用的llm性能更高一些，1.5版本做了一些妥协，请问目前v1.5和v1.2plus版本哪个性能更强一些呢？另外也是看其他issue提到说finetune1.2的性价比并不高，也是考虑到模型大小的因素吗？最后v1.5的finetune指南会在近期发布吗?^_^

May 22 '24 09:05 zhangye0402

我也面临同样的问题，请问是否可以帮忙解答

May 23 '24 08:05 1028686314

现在建议去微调InternVL2的模型。

多图可以按照这个格式准备数据：https://internvl.readthedocs.io/en/latest/get_started/chat_data_format.html#multi-image-data

然后按照这个文档进行微调：https://internvl.readthedocs.io/en/latest/internvl2.0/finetune.html

Jul 31 '24 04:07 czczup