Yukeen
Yukeen
### System Info 同样的训练配置,但是两个模型的表现效果差异很大,qwen3-vl-8b会经常波动,用的verl仓库代码是10月初的,不知道是不是框架的原因 ### Information - [ ] The official example scripts - [x] My own modified scripts ### Tasks - [x] An officially supported task in the `examples`...
### System Info transformers Version 4.57.1 Verl: On branch release/v0.6.1 8*NVIDIA H20 the official result https://github.com/volcengine/verl/pull/3496 ### Information - [x] The official example scripts - [ ] My own modified...
我用了相同的训练脚本训练qwen3-vl-8b和qwen2.5-vl-7b,数据集为example中的geo3k,训练框架为verl,但是训练的时候qwen3-vl-8b的波动非常大。不知道是不是我verl的代码快两个月没更新的缘故。