InternVL
InternVL copied to clipboard
使用internvl1.5对视频进行进行问答
我希望能使用internvl1.5对视频进行问答,可以采取什么方式? 我已尝试过对视频抽帧,并将抽出的多张图像cat在一起作为输入,但过多的图像cat在一起显然会大幅增加我的输入长度,从而在inference的时候显存爆炸。据此,有什么方式能较好使用internvl1.5的对视频输入进行问答吗?