MiniGPT-4
MiniGPT-4 copied to clipboard
Information available to the LLM seems to be limited
From the paper and BLIP-2's paper it seems only 32 tokens are fed to the LLM, is that correct? If so it seems there's very limited information to the LLM from the image, wonder if cross attention directly to the image is possible.
Хуй
воскресенье, 30 апреля 2023 г. пользователь zyddnys < @.***> написал:
Судя по бумаге и бумаге BLIP-2, в LLM подается только 32 токена, верно? Если это так, то кажется, что информация о LLM из изображения очень ограничена, интересно, возможно ли перекрестное внимание непосредственно к изображению.
— Ответьте на это письмо напрямую, просмотрите его на GitHub https://github.com/Vision-CAIR/MiniGPT-4/issues/175 или отмените подписку https://github.com/notifications/unsubscribe-auth/A7KUGCA5VLV6N7MGXTQ4FHLXDZ52VANCNFSM6AAAAAAXQ7K5VU . Вы получаете это, потому что подписаны на эту тему.Идентификатор сообщения: <Vision-CAIR/MiniGPT-4/issues/ 175 @ github . ком>
-- unlocking
Indeed, the information LLM can receive is limited by Q-former. We are exploring new methods without Q-former.