Qingyun
Qingyun
这是我的一个微调florence2到遥感目标检测的demo code https://github.com/VisionXLab/mllm-mmrotate  里面还有我试qwen2vl的残骸,不过当时其实没有很对齐qwen的预训练格式,但是我和其他人也交流过,qwen和internvl这种就是很难拟合dense detection的,这很神奇,按说florence2的架构没有什么新东西,可能还是florence的vision输入比较大而且训练数据里定位的占比非常非常多带来的效果。 这个是我前面说的论证能和fcos相当的实验结果 
> 感谢分享结果!这种密集检测我没有试过,不过我自己的实验室好像florence-2是会比qwen好一些,更快收敛和更加稳定。我在想会不会和florence2中定位坐标变成单独token有关。 直觉上讲和单独的token关系不大,感觉主要还是florence2里极其丰富的密集预测训练,无论从总量还是占比上
> 的确,感觉florence2前期的训练数据很关键,而且florence2基本针对检测 嗯嗯,而且似乎他的data pipe到最后本来也是从模型生成的数据,其实也可以部署florence-2-large,也标出5B数据然后专门微调有新技术的模型,相当于florence-3了,只是耗费的算力肯定不少,而且qwen的动态分辨率技术增加了不少消耗,qwen的vision encoder速度也需要提高一点,最后就是它没有再小一点的模型。当然也有替代品例如 smolvlm2,但是它demo里连个grounding都没得
> qwen 更通用一些,而且florence-2有输出限制,好像不能超过1024个token,不然会报错,我这边是这样的 tune 的时候能调 maxlength,我那张图1024的话根本不够,那个目标那么密集
https://github.com/VisionXLab/mllm-mmrotate/blob/feeec40b20d6d49d11c4dbfea554f35d5e3ef622/lmmrotate/trainer.py#L169-L195 可以参考下我的实现,我是max length 2048 如果有用还麻烦star和cite我们
该不会也是许嵩演唱会的票吧 =_=
> > 该不会也是许嵩演唱会的票吧 =_= > > 买到了吗,嵩子 没有呗,逆天,抢不了一点
确实,要在 v4.50.0dev 才能行