InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

多图推理的最大分辨率问题

Open zhangye0402 opened this issue 1 year ago • 0 comments

在官方给出的demo中,使用了example文件夹下的image1以及image2,可以顺利进行multi-image conversation 但如果简单将image1、2换成image4、5,模型就只能识别到其中的一张图片,查看分辨率发现image4的分辨率达到了1920x1200,而image2的1000x1000分辨率就不会出现问题。 image 想请问下进行multi-image conversation的话,单张图像的分辨率上限是多少呢?同时模型最多可以支持多少张图像的输入呢? @czczup 谢谢!^_^

zhangye0402 avatar May 24 '24 09:05 zhangye0402