InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

v1_2多图微调问题

Open zhangye0402 opened this issue 1 year ago • 1 comments

非常厉害的模型,我这边主要有两个问题想要请教下: 1.第一个问题就是标题中的问题,1.2版本是否支持多图输入的微调呢?具体而言,在第一轮对话中给出多张图像及问答对的微调形式是否可行呢?大概是这个意思: { "id": 0, "image": "images/5.png","images/6.png","images/7.png", "conversations": [ { "from": "human", "value": "\n第一轮对话的问题" }, { "from": "gpt", "value": "第一轮对话的回答" }, { "from": "human", "value": "第二轮对话的问题" }, { "from": "gpt", "value": "第二轮对话的回答" } ] } 2.第二个问题是关于模型的性能,看其他issue中有说到实际上1.2版本使用的llm性能更高一些,1.5版本做了一些妥协,请问目前v1.5和v1.2plus版本哪个性能更强一些呢?另外也是看其他issue提到说finetune1.2的性价比并不高,也是考虑到模型大小的因素吗?最后v1.5的finetune指南会在近期发布吗?^_^

zhangye0402 avatar May 22 '24 09:05 zhangye0402

我也面临同样的问题,请问是否可以帮忙解答

1028686314 avatar May 23 '24 08:05 1028686314

现在建议去微调InternVL2的模型。

多图可以按照这个格式准备数据:https://internvl.readthedocs.io/en/latest/get_started/chat_data_format.html#multi-image-data

然后按照这个文档进行微调:https://internvl.readthedocs.io/en/latest/internvl2.0/finetune.html

czczup avatar Jul 31 '24 04:07 czczup