LLaVA-NeXT
LLaVA-NeXT copied to clipboard
llava-video与llava-ov在视频表示的token上的区别
我注意到llava-video 7B上用到的video表示方式是(64, 679, 1, 2),每个frame是679个token,但是在ov上是729个,我想问一下这其中有什么细节上的修改吗