Osprey
Osprey copied to clipboard
关于token数量的问题
在ospery中,convnext产生的image feature token应该是1024个 (1024 * 768的特征),再结合mask feature (128 + 64 + 32 + 16)和pos的 token,以及text的token 是否会比较容易超出2048比较多? 如果以上数值理解有谬误,烦请指正,非常感谢~