MiniGPT-4 icon indicating copy to clipboard operation
MiniGPT-4 copied to clipboard

Information available to the LLM seems to be limited

Open zyddnys opened this issue 1 year ago • 2 comments

From the paper and BLIP-2's paper it seems only 32 tokens are fed to the LLM, is that correct? If so it seems there's very limited information to the LLM from the image, wonder if cross attention directly to the image is possible.

zyddnys avatar Apr 30 '23 15:04 zyddnys

Хуй

воскресенье, 30 апреля 2023 г. пользователь zyddnys < @.***> написал:

Судя по бумаге и бумаге BLIP-2, в LLM подается только 32 токена, верно? Если это так, то кажется, что информация о LLM из изображения очень ограничена, интересно, возможно ли перекрестное внимание непосредственно к изображению.

— Ответьте на это письмо напрямую, просмотрите его на GitHub https://github.com/Vision-CAIR/MiniGPT-4/issues/175 или отмените подписку https://github.com/notifications/unsubscribe-auth/A7KUGCA5VLV6N7MGXTQ4FHLXDZ52VANCNFSM6AAAAAAXQ7K5VU . Вы получаете это, потому что подписаны на эту тему.Идентификатор сообщения: <Vision-CAIR/MiniGPT-4/issues/ 175 @ github . ком>

-- unlocking

Ericsson12resffd0 avatar May 01 '23 23:05 Ericsson12resffd0

Indeed, the information LLM can receive is limited by Q-former. We are exploring new methods without Q-former.

TsuTikgiau avatar May 02 '23 08:05 TsuTikgiau