Tyrion Liu comments

Repositories
Issues
Comments

Results 12 comments of


                                            Tyrion Liu

[BUG] <title> RuntimeError: "erfinv_cuda" not implemented for 'BFloat16'

遇到同样问题。CUDA 11.8

【Question：如何使用更大尺寸的图像微调？】

Qwen-VL是用Resampler从vit给出的token中重新提取信息的，跟QFormer类似。这样可以有效压缩输入到llm中的图像token数。缺点就是你提升了vit的分辨率，llm未必能有效捕捉到。另外官方脚本的lora只有llm中的module，resampler和vit没有精调到。提升了分辨率之后resampler应该是需要精调的，否则定位必然不准确。但我个人体会是由于一些模块定义上的问题（投影用的parameter，torch的MHA层也大量使用parameter而linear），对resampler部分进行lora精调极为困难（peft的lora处理单位都是module而非parameter），至少考虑resampler和投影层的全参微调效果可能会好。但那样数据量需求会大一点。