Tyrion Liu
Results
12
comments of
Tyrion Liu
Qwen-VL是用Resampler从vit给出的token中重新提取信息的,跟QFormer类似。这样可以有效压缩输入到llm中的图像token数。缺点就是你提升了vit的分辨率,llm未必能有效捕捉到。 另外官方脚本的lora只有llm中的module,resampler和vit没有精调到。提升了分辨率之后resampler应该是需要精调的,否则定位必然不准确。但我个人体会是由于一些模块定义上的问题(投影用的parameter,torch的MHA层也大量使用parameter而linear),对resampler部分进行lora精调极为困难(peft的lora处理单位都是module而非parameter),至少考虑resampler和投影层的全参微调效果可能会好。但那样数据量需求会大一点。