Qingyun

Results 78 comments of Qingyun

这是我的一个微调florence2到遥感目标检测的demo code https://github.com/VisionXLab/mllm-mmrotate ![](https://github.com/user-attachments/assets/2f45fad2-bab9-45f3-8b7f-fdd1a16db335) 里面还有我试qwen2vl的残骸,不过当时其实没有很对齐qwen的预训练格式,但是我和其他人也交流过,qwen和internvl这种就是很难拟合dense detection的,这很神奇,按说florence2的架构没有什么新东西,可能还是florence的vision输入比较大而且训练数据里定位的占比非常非常多带来的效果。 这个是我前面说的论证能和fcos相当的实验结果 ![](https://private-user-images.githubusercontent.com/29257168/410023281-dcc2353f-4060-40e1-95d7-f926242691b2.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDQ4ODMzNDksIm5iZiI6MTc0NDg4MzA0OSwicGF0aCI6Ii8yOTI1NzE2OC80MTAwMjMyODEtZGNjMjM1M2YtNDA2MC00MGUxLTk1ZDctZjkyNjI0MjY5MWIyLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTA0MTclMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwNDE3VDA5NDQwOVomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWI0NWZiYTA2ZmY4MDI2MWFlMjJhMmI4ZDViNjljOWVlYzBlZWQ1OTU0MTI2OTAwODAwMjM3NjJkZGFiMDIzMWUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.cY4a5nYxK440Wr3VDA6TetiWhWiA4Blmje6Of-Xve0g)

> 感谢分享结果!这种密集检测我没有试过,不过我自己的实验室好像florence-2是会比qwen好一些,更快收敛和更加稳定。我在想会不会和florence2中定位坐标变成单独token有关。 直觉上讲和单独的token关系不大,感觉主要还是florence2里极其丰富的密集预测训练,无论从总量还是占比上

> 的确,感觉florence2前期的训练数据很关键,而且florence2基本针对检测 嗯嗯,而且似乎他的data pipe到最后本来也是从模型生成的数据,其实也可以部署florence-2-large,也标出5B数据然后专门微调有新技术的模型,相当于florence-3了,只是耗费的算力肯定不少,而且qwen的动态分辨率技术增加了不少消耗,qwen的vision encoder速度也需要提高一点,最后就是它没有再小一点的模型。当然也有替代品例如 smolvlm2,但是它demo里连个grounding都没得

> qwen 更通用一些,而且florence-2有输出限制,好像不能超过1024个token,不然会报错,我这边是这样的 tune 的时候能调 maxlength,我那张图1024的话根本不够,那个目标那么密集

https://github.com/VisionXLab/mllm-mmrotate/blob/feeec40b20d6d49d11c4dbfea554f35d5e3ef622/lmmrotate/trainer.py#L169-L195 可以参考下我的实现,我是max length 2048 如果有用还麻烦star和cite我们

该不会也是许嵩演唱会的票吧 =_=

> > 该不会也是许嵩演唱会的票吧 =_= > > 买到了吗,嵩子 没有呗,逆天,抢不了一点

确实,要在 v4.50.0dev 才能行