mPLUG-DocOwl TinyChart-visual encoder位置编码长度不匹配的错误

TinyChart-visual encoder位置编码长度不匹配的错误

Open nth2000 opened this issue 8 months ago • 3 comments

首先感谢您的精彩工作。

目前我正在基于tinyllava模型利用tinychart数据复现训练流程，但是我发现bczhou/TinyLLaVA-3.1B-SigLIP中的visual encoder的image_size是384，vit_add_tome.py会将config中的image_size改成768。

因此在模型初始化时会基于image_size=768初始化sigLIP的position embedding的长度，但是bczhou/TinyLLaVA-3.1B-SigLIP checkpoint中的position embedding长度是基于image_size = 384的。将这个checkpoint中的参数load进来时导致了我在运行时产生了参数形状不匹配的错误。

能否请问下如何解决这个错误呢？非常感谢！

Jun 23 '24 12:06 nth2000

mPLUG-DocOwl mPLUG-DocOwl copied to clipboard

TinyChart-visual encoder位置编码长度不匹配的错误

mPLUG-DocOwl
mPLUG-DocOwl copied to clipboard