Qingyun comments

Results 78 comments of


                                            Qingyun

Grounding 微调后效果不理想

这是我的一个微调florence2到遥感目标检测的demo code https://github.com/VisionXLab/mllm-mmrotate ![](https://github.com/user-attachments/assets/2f45fad2-bab9-45f3-8b7f-fdd1a16db335) 里面还有我试qwen2vl的残骸，不过当时其实没有很对齐qwen的预训练格式，但是我和其他人也交流过，qwen和internvl这种就是很难拟合dense detection的，这很神奇，按说florence2的架构没有什么新东西，可能还是florence的vision输入比较大而且训练数据里定位的占比非常非常多带来的效果。这个是我前面说的论证能和fcos相当的实验结果 ![](https://private-user-images.githubusercontent.com/29257168/410023281-dcc2353f-4060-40e1-95d7-f926242691b2.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3NDQ4ODMzNDksIm5iZiI6MTc0NDg4MzA0OSwicGF0aCI6Ii8yOTI1NzE2OC80MTAwMjMyODEtZGNjMjM1M2YtNDA2MC00MGUxLTk1ZDctZjkyNjI0MjY5MWIyLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNTA0MTclMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjUwNDE3VDA5NDQwOVomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPWI0NWZiYTA2ZmY4MDI2MWFlMjJhMmI4ZDViNjljOWVlYzBlZWQ1OTU0MTI2OTAwODAwMjM3NjJkZGFiMDIzMWUmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0In0.cY4a5nYxK440Wr3VDA6TetiWhWiA4Blmje6Of-Xve0g)

Grounding 微调后效果不理想

> 感谢分享结果！这种密集检测我没有试过，不过我自己的实验室好像florence-2是会比qwen好一些，更快收敛和更加稳定。我在想会不会和florence2中定位坐标变成单独token有关。直觉上讲和单独的token关系不大，感觉主要还是florence2里极其丰富的密集预测训练，无论从总量还是占比上

Grounding 微调后效果不理想

> 的确，感觉florence2前期的训练数据很关键，而且florence2基本针对检测嗯嗯，而且似乎他的data pipe到最后本来也是从模型生成的数据，其实也可以部署florence-2-large，也标出5B数据然后专门微调有新技术的模型，相当于florence-3了，只是耗费的算力肯定不少，而且qwen的动态分辨率技术增加了不少消耗，qwen的vision encoder速度也需要提高一点，最后就是它没有再小一点的模型。当然也有替代品例如 smolvlm2，但是它demo里连个grounding都没得

Qingyun

Grounding 微调后效果不理想

Grounding 微调后效果不理想

Grounding 微调后效果不理想

Grounding 微调后效果不理想

Grounding 微调后效果不理想

请问一下，现在这软件还能用吗？

请问一下，现在这软件还能用吗？

Qwen2.5-VL full sft dtype error