Xinlong Yang
Xinlong Yang
时序维度上也有merge,所以实际上是200 * 144也就是28800;qwen2vl3个维度上均有merge
May be the output is too short (...
> I don't see `get_tensor_model_parallel_group()` used in either transformers or accelerate in the context of deepspeed (just megatron in accelereate), so I'm not sure how this should work in the...
> > I don't see `get_tensor_model_parallel_group()` used in either transformers or accelerate in the context of deepspeed (just megatron in accelereate), so I'm not sure how this should work in...
你的循环里面图片输入bs是11吗?似乎没对上grid_t这个维度,正常是需要插值到12然后被2整除,得到(6,2,3,8,2,14,8,2,14)才对,你看看你_preprocess()函数里面有下面的代码段吗? 
> > 你的循环里面图片输入bs是11吗?似乎没对上grid_t这个维度,正常是需要插值到12然后被2整除,得到(6,2,3,8,2,14,8,2,14)才对,你看看你_preprocess()函数里面有下面的代码段吗? > >  > > 欸你好 我也看到了grid有三个维度 但是我不是很懂应该怎么处理这三个值 这个值是根据图片size和图片个数计算的,qwen2-vl会将一张图片视为连续两个相同的帧;qwen2-vl原本读取图片是一张一张进行处理的,每张都会复制一份(视为连续两个相同的帧),而你这个是直接把batched图片输入进去了,它当成整体处理了,维度就有问题,应该正常是把你这里批次的images打散成list,每个元素是一张图片传进去,然后qwen2vl自己会处理。
Common multi-turn sft training data and generated by target model itself
That's true, I think this may be a tiny bug. If we comment line841-line844 in cnets.py, the performance would be slightly better in my experiments. But since the seqlen here...
> Qwen2_5_VL_72B ,整个模型默认config里max_position_embeddings是128000,也就是128000个tokens,其中默认最多的视觉tokens数量,也就是视频和图像加起来的tokens最大应该是多少?是不定的吗,看视频长度和数量,这一块默认是多少?在那个位置设置的? 动态分辨率,不定的