InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

使用internvl1.5对视频进行进行问答

Open aabbc-cell opened this issue 9 months ago • 0 comments

我希望能使用internvl1.5对视频进行问答,可以采取什么方式? 我已尝试过对视频抽帧,并将抽出的多张图像cat在一起作为输入,但过多的图像cat在一起显然会大幅增加我的输入长度,从而在inference的时候显存爆炸。据此,有什么方式能较好使用internvl1.5的对视频输入进行问答吗?

aabbc-cell avatar May 21 '24 11:05 aabbc-cell