DimplesL

Results 4 issues of DimplesL

update

针对llama2-7b模型,max token length为2048,按照stage2 的训练参数,一旦设置IMAGE_GRID=2和IMAGE_GLOBAL为True, image_features = torch.cat([image_feat_global, image_features], dim=1) image_aux_features = torch.cat([image_aux_feat_global, image_aux_features], dim=1) 两行最终得到的图像特征token数就变成了2880,这里token数不是超了吗?如果理解有误敬请指正。

8月更新了llama基础的video llama,demo似乎没有更新,请问如何部署?

在ospery中,convnext产生的image feature token应该是1024个 (1024 * 768的特征),再结合mask feature (128 + 64 + 32 + 16)和pos的 token,以及text的token 是否会比较容易超出2048比较多? 如果以上数值理解有谬误,烦请指正,非常感谢~