[FEAT] Add the support for more VLMs(Gemma3)
Checklist Before Starting
- [x] Search for similar PR(s).
- The gemma3 support is mentioned in #1123 . In this PR, we add initial support for the Gemma3.
What does this PR do?
Add initial support for Gemma3
High-Level Design
Abstract the preprocess procedure for LMMs, make it easy to add new Multi-Modal
Specific Changes
Add the preprocessor API in the
verl.utils.datasetModify theverl.utils.dataset.rl_datasetto support the preprocessor API.
API
Add the
preprocessorfor the multi-modality model.
Usage Example
Provide usage example(s) for easier usage.
set -x
ENGINE=${1:-vllm}
export NCCL_DEBUG=WARN
python3 -m verl.trainer.main_ppo \
algorithm.adv_estimator=grpo \
data.train_files=prepared_data/colon_data/train.parquet \
data.val_files=prepared_data/colon_data/train.parquet \
data.train_batch_size=4 \
data.max_prompt_length=4096 \
data.max_response_length=2048 \
data.filter_overlong_prompts=True \
data.truncation='error' \
data.image_key=images \
actor_rollout_ref.model.path=Google/gemma-3-12b-it \
actor_rollout_ref.model.trust_remote_code=True \
actor_rollout_ref.actor.optim.lr=2e-6 \
actor_rollout_ref.model.use_remove_padding=True \
actor_rollout_ref.actor.ppo_mini_batch_size=2 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=2 \
actor_rollout_ref.actor.use_kl_loss=True \
actor_rollout_ref.actor.kl_loss_coef=0.01 \
actor_rollout_ref.actor.kl_loss_type=low_var_kl \
actor_rollout_ref.actor.entropy_coeff=0 \
actor_rollout_ref.model.enable_gradient_checkpointing=True \
actor_rollout_ref.actor.fsdp_config.param_offload=False \
actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=2 \
actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
actor_rollout_ref.rollout.name=$ENGINE \
actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
actor_rollout_ref.rollout.enable_chunked_prefill=False \
actor_rollout_ref.rollout.enforce_eager=False \
actor_rollout_ref.rollout.free_cache_engine=False \
actor_rollout_ref.rollout.n=4 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=2 \
actor_rollout_ref.ref.fsdp_config.param_offload=True \
algorithm.use_kl_in_reward=False \
trainer.critic_warmup=0 \
trainer.logger=['console','wandb'] \
trainer.project_name='verl_grpo_colon' \
trainer.experiment_name='gemma3_12b_it_colon' \
trainer.n_gpus_per_node=1 \
trainer.nnodes=1 \
trainer.save_freq=3000 \
trainer.val_before_train=False \
custom_reward_function.path="rewards/colon.py" \
custom_reward_function.name=compute_score \
trainer.test_freq=-1 \
trainer.total_epochs=15 $@
Test
- [ ] To verify the model. Currently, my GPU does not support me in verifying the training of the model, like Gemma3 (Out of Memory on the GPU). But I have checked that the support for the Qwen2VL series is not broken by this PR.
The training curve for InternVl2.5-1B
The training curve for InternVL3-1B
Additional Info.
- Issue Number: #1239
- Training: FSDP
- Inference: None
Checklist Before Submitting
- [x] Read the Contribute Guide.
- [x] Apply pre-commit checks.
- [x] Add
[BREAKING]to the PR title if it breaks any API. - [x] Update the documentation about your changes in the docs.
- [x] Add CI test(s) if necessary.
Thanks for the PR! We noticed that hf transformer is doing refactoring for the vlm model interface. We will temporarily pause merging effort to avoid too much adhoc model specific integration code brought by vlm
Thanks for the PR! We noticed that hf transformer is doing refactoring for the vlm model interface. We will temporarily pause merging effort to avoid too much adhoc model specific integration code brought by vlm
Yeah, I've also noticed that. The latest Transformers has some conflicts with the VLLM. I will try to add the code to resolve these conflicts and ensure version compatibility.
Thank you for your brilliant work! I’m interested in using Gemma3 as the base to perform RL training and I have tested your PR committed codes on my own machine. However, I have encountered a problem of Gibberish output of VLLM rollout model during training. Below is my training configuration and machine environment: I would appreciate it if you could have a look at my logs and give your suggestions on how to solve the problem!
training configuration
algorithm:
adv_estimator: grpo
use_kl_in_reward: False
data:
train_files: xxx/xxx.train.parquet
val_files: xxx/xxx.test.parquet
train_batch_size: 800
max_prompt_length: 2048
max_response_length: 4096
filter_overlong_prompts: True
truncation: 'error'
actor_rollout_ref:
model:
path: google/gemma-3-4b-it
use_remove_padding: True
enable_gradient_checkpointing: True
trust_remote_code: True
actor:
optim:
lr: 1e-6
ppo_mini_batch_size: 256
ppo_micro_batch_size_per_gpu: 32
use_kl_loss: True
kl_loss_coef: 0.001
kl_loss_type: low_var_kl
entropy_coeff: 0
fsdp_config:
param_offload: False
optimizer_offload: False
model_dtype: bfloat16
rollout:
name: vllm
log_prob_micro_batch_size_per_gpu: 32
tensor_model_parallel_size: 1
limit_images: 1
gpu_memory_utilization: 0.6
n: 5
# new
enable_chunked_prefill: False
enforce_eager: False
free_cache_engine: False
ref:
log_prob_micro_batch_size_per_gpu: 32
fsdp_config:
param_offload: True
model_dtype: bfloat16
trainer:
critic_warmup: 0
logger: ['console']
n_gpus_per_node: 1
nnodes: 2
save_freq: 1 # should be larger than 0, -1 & 0 will disable checkpointing
test_freq: 5
total_epochs: 15
custom_reward_function:
path: xxx/xxx.py
name: compute_score
machine environment
vllm==0.8.6
vllm 0.8.6
sglang 0.4.6.post4
pyarrow 20.0.0
tensordict 0.6.2+88c86f8
nvidia-cudnn-cu12 9.8.0.87
ray 2.46.0
torch 2.7.0+cu128
torch_memory_saver 0.0.6
torchao 0.11.0
torchaudio 2.7.0
torchdata 0.11.0
torchvision 0.22.0
hf_transfer 0.1.9
transformer_engine 2.2.0+c55e425
transformers 4.52.4
flash_attn 2.7.4.post1
flashinfer-python 0.2.3
I could execute the training job by this environment but I got the Gibberish output of my rollout model like:
[response] 俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Saltar俥俥俥 Saltar Saltar俥俥俥俥 Saltar Saltar俥俥俥 Saltar Saltar俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Latinoamérica俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Saltar俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Latinoamérica俥俥俥俥俥俥 Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica plur plur plur俥俥俥俥俥俥俥俥 plur俥俥俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plurรรรร plurรรรรรร俥 plurรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรร whorรร Saltarรร Saltarรร Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥俥俥俥俥俥 congratulate congratulate congratulate俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate congratulate俥俥俥 congratulate congratulate congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate congratulate俥俥 congratulate congratulate俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate congratulate俥俥俥 congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate俥俥俥 congratulate congratulate俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate congratulate俥俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate continú continú dedic congratulate俥俥 continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú bạch continú continú continú continú continú continú continú continú continú continú continú bạch continú continú continú continú continú continú continú continú continú continú continú bạch bạch continú continú continú continú continú continú continú continú continú continú continú continú continú continú bạch bạch continú continú continú continú continú continú continú continú continú continú continú continú continú bạch bạch bạch continú continú continú continú continú continú continú continú continú continú bạch bạch bạch continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú एमसी bạch एमसी continú एमसी bạch एमसी continú एमसी bạch congratulate continú continú continú bạch bạch bạch bạch bạch bạch bạch bạch bạch continú एमसी bạch एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी whor transc एमसी whor एमसी whor एमसी whor transc एमसी एमसी एमसी एमसी bạch congratulate एमसी whor एमसी whor एमसी whor एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch congratulate एमसी whor transc एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch congratulate एमसी bạch congratulate एमसी whor transc एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी whorစီ एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch एमसी congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसीᄎ एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसीᄎ एमसीᄎᄎᄎ एमसीᄎ एमसी एमसीᄎᄎҒ congratulateᄎᄎᄎᄎᄎ एमसीᄎᄎᄎᄎᄎᄎᄎᄎҒ एमसी congratulateᄎᄎҒᄎ एमसीᄎᄎᄎᄎᄎᄎᄎҒ एमसी congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ एमसी congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ एमसीᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒҒᄎ congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒҒᄎ एमसीᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒᄎᄎᄎᄎᄎᄎҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙 congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙ҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙ҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙ҒҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙 congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎ랙랙ᄎᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎ랙랙ᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎ랙랙랙ᄎ zoomᄎ bạch cataracts cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch cataracts bạch bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom bạch bạch cataracts bạch zoom zoom bạch cataracts bạch zoom bạch cataracts bạch zoom zoom bạch bạch cataracts zoom bạch bạch cataracts zoom bạch zoom zoom bạch bạch cataracts zoom bạch bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom bạch bạch cataracts zoom bạch zoom zoom bạch cataracts bạch zoom bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom專 bạch whor cataracts bạch whor zoom專 cataracts whor bạch whor zoom專 cataracts whor專 cataracts專 cataracts whor whor whor專專 cataracts專 cataracts專 cataracts專 cataracts專專 cataracts專 cataracts專 cataracts專專 cataractsனுக்கு專 cataractsனுக்கு專 cataracts專 cataracts專專 cataractsனுக்கு專னுக்கு congratulateனுக்கு whorனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குதத బ బ బனுக்குனுக்குனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்கு బனுக்கு特征னுக்கு బனுக்குனுக்கு బ బனுக்குதனுக்கு బ బ బத特征 బ బ特征特征特征特征特征 బ బ బதத బ బ బ特征特征特征特征特征特征特征 బ బ బ బ
vllm==0.8.5.post1
I have also tested the same configuration on the following environment:
vllm 0.8.5.post1
sglang 0.4.6.post4
pyarrow 20.0.0
tensordict 0.6.2
nvidia-cudnn-cu12 9.8.0.87
ray 2.46.0
flashinfer-python 0.2.2.post1+cu124torch2.6
torch 2.6.0+cu124
torch_memory_saver 0.0.6
torchao 0.9.0
torchaudio 2.6.0
torchdata 0.11.0
torchvision 0.21.0
hf_transfer 0.1.9
transformer_engine 2.2.0+c55e425
transformers 4.52.4
flash_attn 2.7.4.post1
flashinfer-python 0.2.2.post1+cu124torch2.6
But this time, I cannot execute the training job and got the following exception:
Traceback (most recent call last):
File "/home/jovyan/workspace/verl/verl/trainer/main_ppo.py", line 64, in main
run_ppo(config)
File "/home/jovyan/workspace/verl/verl/trainer/main_ppo.py", line 76, in run_ppo
ray.get(runner.run.remote(config))
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/auto_init_hook.py", line 21, in auto_init_wrapper
return fn(*args, **kwargs)
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/client_mode_hook.py", line 103, in wrapper
return func(*args, **kwargs)
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/worker.py", line 2822, in get
values, debugger_breakpoint = worker.get_objects(object_refs, timeout=timeout)
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/worker.py", line 930, in get_objects
raise value.as_instanceof_cause()
ray.exceptions.RayTaskError(AssertionError): ray::TaskRunner.run() (pid=5313, ip=192.168.189.144, actor_id=8d5eef0858395d7c9f2aec8001000000, repr=<main_ppo.TaskRunner object at 0x7fb3f9aac130>)
File "/home/jovyan/workspace/verl/verl/trainer/main_ppo.py", line 183, in run
trainer.fit()
File "/home/jovyan/workspace/verl/verl/trainer/ppo/ray_trainer.py", line 870, in fit
val_metrics = self._validate()
File "/home/jovyan/workspace/verl/verl/trainer/ppo/ray_trainer.py", line 606, in _validate
test_output_gen_batch_padded = self.actor_rollout_wg.generate_sequences(test_gen_batch_padded)
File "/home/jovyan/workspace/verl/verl/single_controller/ray/base.py", line 49, in func
output = ray.get(output)
ray.exceptions.RayTaskError(AssertionError): ray::WorkerDict.actor_rollout_generate_sequences() (pid=6742, ip=192.168.189.144, actor_id=3973d61696f5e8257f7cf27801000000, repr=<verl.single_controller.ray.base.WorkerDict object at 0x7faad0dbddb0>)
File "/home/jovyan/workspace/verl/verl/single_controller/ray/base.py", line 625, in func
return getattr(self.worker_dict[key], name)(*args, **kwargs)
File "/home/jovyan/workspace/verl/verl/single_controller/base/decorator.py", line 534, in inner
return func(*args, **kwargs)
File "/home/jovyan/workspace/verl/verl/workers/fsdp_workers.py", line 645, in generate_sequences
output = self.rollout.generate_sequences(prompts=prompts)
File "/home/jovyan/workspace/verl/verl/utils/debug/performance.py", line 78, in f
return self.log(decorated_function, *args, **kwargs)
File "/home/jovyan/workspace/verl/verl/utils/debug/performance.py", line 88, in log
output = func(*args, **kwargs)
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context
return func(*args, **kwargs)
File "/home/jovyan/workspace/verl/verl/workers/rollout/vllm_rollout/vllm_rollout_spmd.py", line 277, in generate_sequences
outputs = self.inference_engine.generate(
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/utils.py", line 1196, in inner
return fn(*args, **kwargs)
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/entrypoints/llm.py", line 465, in generate
self._validate_and_add_requests(
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/entrypoints/llm.py", line 1354, in _validate_and_add_requests
self._add_request(
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/entrypoints/llm.py", line 1372, in _add_request
self.llm_engine.add_request(
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/v1/engine/llm_engine.py", line 183, in add_request
prompt_str, request = self.processor.process_inputs(
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/v1/engine/processor.py", line 275, in process_inputs
) = merge_and_sort_multimodal_metadata(
File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/multimodal/utils.py", line 318, in merge_and_sort_multimodal_metadata
assert len(modalities) > 0, "No modalities found in the mm_positions."
AssertionError: No modalities found in the mm_positions.
Set the environment variable HYDRA_FULL_ERROR=1 for a complete stack trace.
params key mismatch of Gemma3 between transformers and vllm
I have noticed a mismatch between the params key of state_dict of HF Gemma3 model and VLLM Gemma3 model and add the following codes to
verl.verl.workers.sharding_manager.fsdp_vllm.py:
def update_params(self, updated_params):
model = self.model_runner.model
patch_vllm_moe_model_weight_loader(model)
device = torch.cuda.current_device() # used when fsdp2 set cpu_offload_policy
# ++ start ++
from vllm.model_executor.models.gemma3_mm import Gemma3ForConditionalGeneration
from transformers import Gemma3ForConditionalGeneration as Gemma3ForConditionalGenerationHF
if (isinstance(model, Gemma3ForConditionalGeneration) and
hasattr(Gemma3ForConditionalGenerationHF, "_checkpoint_conversion_mapping")):
params_map = Gemma3ForConditionalGenerationHF._checkpoint_conversion_mapping
params_map = {v: k.strip("^") for k, v in params_map.items()}
logger.info(f"Remapping the params keys of actor module to vllm rollout model by {params_map}")
_updated_params = {}
for name, param in updated_params.items():
new_name = None
for k, v in params_map.items():
if k in name:
new_name = name.replace(k, v, 1)
break
if new_name is None:
new_name = name
_updated_params[new_name] = param
updated_params = _updated_params
del _updated_params
# ++ end ++
loaded_params = model.load_weights(((name, param.to(device, non_blocking=True).full_tensor() if isinstance(param, DTensor) else param) for name, param in updated_params.items()))
logger.info("vLLM load weights, loaded_params: %d", len(loaded_params))
More info
I could successfully launch the Gemma3 model by either transformers or vllm alone in my environment and get reasonable output.
Also, when I change the actor_rollout_ref.rollout.name=hf, the rollout model can give reasonable output during training.
Therefore, I'm wondering whether I have not fully covered all the aspects to deal with this key mismatch.
Or, could you let me know are there any points that I have overseen in your implementations?
Thank you for your brilliant work! I’m interested in using Gemma3 as the base to perform RL training and I have tested your PR committed codes on my own machine. However, I have encountered a problem of Gibberish output of VLLM rollout model during training. Below is my training configuration and machine environment: I would appreciate it if you could have a look at my logs and give your suggestions on how to solve the problem!
training configuration
algorithm: adv_estimator: grpo use_kl_in_reward: False data: train_files: xxx/xxx.train.parquet val_files: xxx/xxx.test.parquet train_batch_size: 800 max_prompt_length: 2048 max_response_length: 4096 filter_overlong_prompts: True truncation: 'error' actor_rollout_ref: model: path: google/gemma-3-4b-it use_remove_padding: True enable_gradient_checkpointing: True trust_remote_code: True actor: optim: lr: 1e-6 ppo_mini_batch_size: 256 ppo_micro_batch_size_per_gpu: 32 use_kl_loss: True kl_loss_coef: 0.001 kl_loss_type: low_var_kl entropy_coeff: 0 fsdp_config: param_offload: False optimizer_offload: False model_dtype: bfloat16 rollout: name: vllm log_prob_micro_batch_size_per_gpu: 32 tensor_model_parallel_size: 1 limit_images: 1 gpu_memory_utilization: 0.6 n: 5 # new enable_chunked_prefill: False enforce_eager: False free_cache_engine: False ref: log_prob_micro_batch_size_per_gpu: 32 fsdp_config: param_offload: True model_dtype: bfloat16 trainer: critic_warmup: 0 logger: ['console'] n_gpus_per_node: 1 nnodes: 2 save_freq: 1 # should be larger than 0, -1 & 0 will disable checkpointing test_freq: 5 total_epochs: 15 custom_reward_function: path: xxx/xxx.py name: compute_scoremachine environment
vllm==0.8.6
vllm 0.8.6 sglang 0.4.6.post4 pyarrow 20.0.0 tensordict 0.6.2+88c86f8 nvidia-cudnn-cu12 9.8.0.87 ray 2.46.0 torch 2.7.0+cu128 torch_memory_saver 0.0.6 torchao 0.11.0 torchaudio 2.7.0 torchdata 0.11.0 torchvision 0.22.0 hf_transfer 0.1.9 transformer_engine 2.2.0+c55e425 transformers 4.52.4 flash_attn 2.7.4.post1 flashinfer-python 0.2.3I could execute the training job by this environment but I got the Gibberish output of my rollout model like:
[response] 俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Saltar俥俥俥 Saltar Saltar俥俥俥俥 Saltar Saltar俥俥俥 Saltar Saltar俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Latinoamérica俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Saltar俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 Saltar Latinoamérica俥俥俥俥俥俥 Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica Latinoamérica plur plur plur俥俥俥俥俥俥俥俥 plur俥俥俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plur俥 plurรรรร plurรรรรรร俥 plurรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรรร whorรร Saltarรร Saltarรร Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltar Saltarreported俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥俥俥俥俥俥 congratulate congratulate congratulate俥俥俥俥俥俥俥俥俥 congratulate congratulate俥俥俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate congratulate俥俥俥 congratulate congratulate congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate congratulate俥俥 congratulate congratulate俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate congratulate俥俥俥 congratulate congratulate俥俥 congratulate congratulate俥俥俥 congratulate congratulate congratulate俥俥俥 congratulate congratulate俥俥 congratulate congratulate congratulate俥俥 congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate congratulate俥俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate congratulate俥俥 continú congratulate continú continú dedic congratulate俥俥 continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú bạch continú continú continú continú continú continú continú continú continú continú continú bạch continú continú continú continú continú continú continú continú continú continú continú bạch bạch continú continú continú continú continú continú continú continú continú continú continú continú continú continú bạch bạch continú continú continú continú continú continú continú continú continú continú continú continú continú bạch bạch bạch continú continú continú continú continú continú continú continú continú continú bạch bạch bạch continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú continú एमसी bạch एमसी continú एमसी bạch एमसी continú एमसी bạch congratulate continú continú continú bạch bạch bạch bạch bạch bạch bạch bạch bạch continú एमसी bạch एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी whor transc एमसी whor एमसी whor एमसी whor transc एमसी एमसी एमसी एमसी bạch congratulate एमसी whor एमसी whor एमसी whor एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch congratulate एमसी whor transc एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch congratulate एमसी bạch congratulate एमसी whor transc एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी whorစီ एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी bạch एमसी congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch congratulate एमसी bạch एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी congratulate एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी एमसी एमसीᄎ एमसी congratulate एमसीᄎ एमसीᄎ एमसी एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसीᄎ एमसीᄎ एमसी एमसीᄎ एमसीᄎ एमसीᄎ एमसीᄎᄎᄎ एमसीᄎ एमसी एमसीᄎᄎҒ congratulateᄎᄎᄎᄎᄎ एमसीᄎᄎᄎᄎᄎᄎᄎᄎҒ एमसी congratulateᄎᄎҒᄎ एमसीᄎᄎᄎᄎᄎᄎᄎҒ एमसी congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ एमसी congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ एमसीᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒҒᄎ congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒҒᄎ एमसीᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒᄎᄎᄎᄎᄎᄎҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙 congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙ҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙ҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙ҒҒᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎҒ랙 congratulateᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎᄎ랙랙ᄎᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎ랙랙ᄎᄎᄎᄎ랙랙랙ᄎᄎᄎᄎ랙랙랙ᄎ zoomᄎ bạch cataracts cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch cataracts bạch bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom zoom bạch bạch cataracts bạch zoom bạch bạch cataracts bạch zoom zoom bạch cataracts bạch zoom bạch cataracts bạch zoom zoom bạch bạch cataracts zoom bạch bạch cataracts zoom bạch zoom zoom bạch bạch cataracts zoom bạch bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom bạch bạch cataracts zoom bạch zoom zoom bạch cataracts bạch zoom bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom bạch cataracts bạch zoom zoom專 bạch whor cataracts bạch whor zoom專 cataracts whor bạch whor zoom專 cataracts whor專 cataracts專 cataracts whor whor whor專專 cataracts專 cataracts專 cataracts專 cataracts專專 cataracts專 cataracts專 cataracts專專 cataractsனுக்கு專 cataractsனுக்கு專 cataracts專 cataracts專專 cataractsனுக்கு專னுக்கு congratulateனுக்கு whorனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குனுக்குதத బ బ బனுக்குனுக்குனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்கு బனுக்குனுக்கு బனுக்கு特征னுக்கு బனுக்குனுக்கு బ బனுக்குதனுக்கு బ బ బத特征 బ బ特征特征特征特征特征 బ బ బதத బ బ బ特征特征特征特征特征特征特征 బ బ బ బvllm==0.8.5.post1
I have also tested the same configuration on the following environment:
vllm 0.8.5.post1 sglang 0.4.6.post4 pyarrow 20.0.0 tensordict 0.6.2 nvidia-cudnn-cu12 9.8.0.87 ray 2.46.0 flashinfer-python 0.2.2.post1+cu124torch2.6 torch 2.6.0+cu124 torch_memory_saver 0.0.6 torchao 0.9.0 torchaudio 2.6.0 torchdata 0.11.0 torchvision 0.21.0 hf_transfer 0.1.9 transformer_engine 2.2.0+c55e425 transformers 4.52.4 flash_attn 2.7.4.post1 flashinfer-python 0.2.2.post1+cu124torch2.6But this time, I cannot execute the training job and got the following exception:
Traceback (most recent call last): File "/home/jovyan/workspace/verl/verl/trainer/main_ppo.py", line 64, in main run_ppo(config) File "/home/jovyan/workspace/verl/verl/trainer/main_ppo.py", line 76, in run_ppo ray.get(runner.run.remote(config)) File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/auto_init_hook.py", line 21, in auto_init_wrapper return fn(*args, **kwargs) File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/client_mode_hook.py", line 103, in wrapper return func(*args, **kwargs) File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/worker.py", line 2822, in get values, debugger_breakpoint = worker.get_objects(object_refs, timeout=timeout) File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/ray/_private/worker.py", line 930, in get_objects raise value.as_instanceof_cause() ray.exceptions.RayTaskError(AssertionError): ray::TaskRunner.run() (pid=5313, ip=192.168.189.144, actor_id=8d5eef0858395d7c9f2aec8001000000, repr=<main_ppo.TaskRunner object at 0x7fb3f9aac130>) File "/home/jovyan/workspace/verl/verl/trainer/main_ppo.py", line 183, in run trainer.fit() File "/home/jovyan/workspace/verl/verl/trainer/ppo/ray_trainer.py", line 870, in fit val_metrics = self._validate() File "/home/jovyan/workspace/verl/verl/trainer/ppo/ray_trainer.py", line 606, in _validate test_output_gen_batch_padded = self.actor_rollout_wg.generate_sequences(test_gen_batch_padded) File "/home/jovyan/workspace/verl/verl/single_controller/ray/base.py", line 49, in func output = ray.get(output) ray.exceptions.RayTaskError(AssertionError): ray::WorkerDict.actor_rollout_generate_sequences() (pid=6742, ip=192.168.189.144, actor_id=3973d61696f5e8257f7cf27801000000, repr=<verl.single_controller.ray.base.WorkerDict object at 0x7faad0dbddb0>) File "/home/jovyan/workspace/verl/verl/single_controller/ray/base.py", line 625, in func return getattr(self.worker_dict[key], name)(*args, **kwargs) File "/home/jovyan/workspace/verl/verl/single_controller/base/decorator.py", line 534, in inner return func(*args, **kwargs) File "/home/jovyan/workspace/verl/verl/workers/fsdp_workers.py", line 645, in generate_sequences output = self.rollout.generate_sequences(prompts=prompts) File "/home/jovyan/workspace/verl/verl/utils/debug/performance.py", line 78, in f return self.log(decorated_function, *args, **kwargs) File "/home/jovyan/workspace/verl/verl/utils/debug/performance.py", line 88, in log output = func(*args, **kwargs) File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/torch/utils/_contextlib.py", line 116, in decorate_context return func(*args, **kwargs) File "/home/jovyan/workspace/verl/verl/workers/rollout/vllm_rollout/vllm_rollout_spmd.py", line 277, in generate_sequences outputs = self.inference_engine.generate( File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/utils.py", line 1196, in inner return fn(*args, **kwargs) File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/entrypoints/llm.py", line 465, in generate self._validate_and_add_requests( File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/entrypoints/llm.py", line 1354, in _validate_and_add_requests self._add_request( File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/entrypoints/llm.py", line 1372, in _add_request self.llm_engine.add_request( File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/v1/engine/llm_engine.py", line 183, in add_request prompt_str, request = self.processor.process_inputs( File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/v1/engine/processor.py", line 275, in process_inputs ) = merge_and_sort_multimodal_metadata( File "/home/jovyan/workspace/miniconda3/envs/verl/lib/python3.10/site-packages/vllm/multimodal/utils.py", line 318, in merge_and_sort_multimodal_metadata assert len(modalities) > 0, "No modalities found in the mm_positions." AssertionError: No modalities found in the mm_positions. Set the environment variable HYDRA_FULL_ERROR=1 for a complete stack trace.params key mismatch of Gemma3 between transformers and vllm
I have noticed a mismatch between the params key of state_dict of HF Gemma3 model and VLLM Gemma3 model and add the following codes to
verl.verl.workers.sharding_manager.fsdp_vllm.py:def update_params(self, updated_params): model = self.model_runner.model patch_vllm_moe_model_weight_loader(model) device = torch.cuda.current_device() # used when fsdp2 set cpu_offload_policy # ++ start ++ from vllm.model_executor.models.gemma3_mm import Gemma3ForConditionalGeneration from transformers import Gemma3ForConditionalGeneration as Gemma3ForConditionalGenerationHF if (isinstance(model, Gemma3ForConditionalGeneration) and hasattr(Gemma3ForConditionalGenerationHF, "_checkpoint_conversion_mapping")): params_map = Gemma3ForConditionalGenerationHF._checkpoint_conversion_mapping params_map = {v: k.strip("^") for k, v in params_map.items()} logger.info(f"Remapping the params keys of actor module to vllm rollout model by {params_map}") _updated_params = {} for name, param in updated_params.items(): new_name = None for k, v in params_map.items(): if k in name: new_name = name.replace(k, v, 1) break if new_name is None: new_name = name _updated_params[new_name] = param updated_params = _updated_params del _updated_params # ++ end ++ loaded_params = model.load_weights(((name, param.to(device, non_blocking=True).full_tensor() if isinstance(param, DTensor) else param) for name, param in updated_params.items())) logger.info("vLLM load weights, loaded_params: %d", len(loaded_params))More info
I could successfully launch the Gemma3 model by either transformers or vllm alone in my environment and get reasonable output. Also, when I change the
actor_rollout_ref.rollout.name=hf, the rollout model can give reasonable output during training. Therefore, I'm wondering whether I have not fully covered all the aspects to deal with this key mismatch. Or, could you let me know are there any points that I have overseen in your implementations?
You need to add a configure actor_rollout_ref.rollout.load_format=auto, then the gibberish output problem is solved. This is mentioned at issue. If you use transformers 4.52.4, you can follow PR to add the weights mapper.
Thank you for your suggestion! I have lowered down my transformers to 4.51.3 and observed reasonable rollout output by setting actor_rollout_ref.rollout.load_format=auto.
Also, I noticed your latest commit and I have rebased onto it to test my experiments. It's awesome! I found the codes in verl/verl/utils/vllm_utils.py have a conflict of member variables with Gemma3:
def patch_vllm_moe_model_weight_loader(model):
# ...
model = getattr(model, "model", None) or getattr(model, "language_model", None)
if model is None:
raise ValueError("The provided model does not have a valid 'model' or 'language_model' attribute.")
for layer in model.layers:
# ...
I have confirmed in my vllm==0.8.6 and nightly vllm that Gemma3ForConditionalGeneration class holds a model in Gemma3ForCausalLM which doesn't have .layers but .model.layers. I have made a quick and simple fix in my codes as below. I'm wondering whether there could be an universal fix in the backend to automatically solve the variable mismatch like this?
model = getattr(model, "model", None) or getattr(model, "language_model", None)
+ if not hasattr(model, "layers"):
+ model = getattr(model, "model", None) or getattr(model, "language_model", None)
Moreover, I observed a warning during training about the attention implementation of Gemma3:
It is strongly recommended to train Gemma3 models with the `eager` attention implementation instead of `flash_attention_2`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.
I tried to add a if-statement in verl/verl/workers/fsdp_workers.py as below, but it will make my training job fail to set up and receive a ray timeout error:
+ if re.match("gemma3", actor_model_config.model_type, re.IGNORECASE):
+ if "flash_attention_2" in model_init_kwargs.get("attn_implementation"):
+ model_init_kwargs["attn_implementation"] = "eager"
actor_module = actor_module_class.from_pretrained(
pretrained_model_name_or_path=local_path,
torch_dtype=torch_dtype,
config=actor_model_config,
trust_remote_code=trust_remote_code,
**model_init_kwargs
)
Seems flash_attention_2 may be an issue of Gemma3 training?
Thank you for your suggestion! I have lowered down my transformers to 4.51.3 and observed reasonable rollout output by setting
actor_rollout_ref.rollout.load_format=auto.Also, I noticed your latest commit and I have rebased onto it to test my experiments. It's awesome! I found the codes in
verl/verl/utils/vllm_utils.pyhave a conflict of member variables with Gemma3:def patch_vllm_moe_model_weight_loader(model): # ... model = getattr(model, "model", None) or getattr(model, "language_model", None) if model is None: raise ValueError("The provided model does not have a valid 'model' or 'language_model' attribute.") for layer in model.layers: # ...I have confirmed in my vllm==0.8.6 and nightly vllm that
Gemma3ForConditionalGenerationclass holds amodelinGemma3ForCausalLMwhich doesn't have.layersbut.model.layers. I have made a quick and simple fix in my codes as below. I'm wondering whether there could be an universal fix in the backend to automatically solve the variable mismatch like this?model = getattr(model, "model", None) or getattr(model, "language_model", None) + if not hasattr(model, "layers"): + model = getattr(model, "model", None) or getattr(model, "language_model", None)Moreover, I observed a warning during training about the attention implementation of Gemma3:
It is strongly recommended to train Gemma3 models with the `eager` attention implementation instead of `flash_attention_2`. Use `eager` with `AutoModelForCausalLM.from_pretrained('<path-to-checkpoint>', attn_implementation='eager')`.I tried to add a if-statement in
verl/verl/workers/fsdp_workers.pyas below, but it will make my training job fail to set up and receive a ray timeout error:+ if re.match("gemma3", actor_model_config.model_type, re.IGNORECASE): + if "flash_attention_2" in model_init_kwargs.get("attn_implementation"): + model_init_kwargs["attn_implementation"] = "eager" actor_module = actor_module_class.from_pretrained( pretrained_model_name_or_path=local_path, torch_dtype=torch_dtype, config=actor_model_config, trust_remote_code=trust_remote_code, **model_init_kwargs )Seems
flash_attention_2may be an issue of Gemma3 training?
I think using the flash_attention_2 is not a problem, and the patch_vllm_moe_model_weight_loader should add a flag to do this process. The Gemma3 series does not patch this. It is better to use the HF as the rollout method for Gemma3. Thus, you can change it to use eager as the attention method.
Please advise, how should I merge the trained Gemma3 weights? I currently encounter an error:
ValueError: Unrecognized configuration class <class 'transformers.models.gemma3.configuration_gemma3.Gemma3Config'> for this kind of AutoModel: AutoModelForVision2Seq.
I don't know how to solve it, could you give me some guidance?
@Qsingle
Thank you again for the repo. I am wondering if I could have some advice. I tried to apply your changes to the EasyR1 (https://github.com/hiyouga/EasyR1/tree/main/verl) and for the processor using one I made from scratch that was based on the Qwen2VLProcessor (https://github.com/huggingface/transformers/blob/d42e96a2a731c4a772e396baa0d915524c873ff0/src/transformers/models/qwen2_vl/processing_qwen2_vl.py#L47), with the image processor to be a custom processor class that implemented the dynamic patching from InternVL documentation (https://huggingface.co/OpenGVLab/InternVL3-2B) and the tokenizer to be the one from autotokenizer. I am, however, getting the issue:
File "/shared/nas/data/m1/sstoica2/conda/envs/tr_papo_ex/lib/python3.10/site-packages/torch/utils/checkpoint.py", line 304, in backward
outputs = ctx.run_function(*detached_inputs)
File "/shared/nas/data/m1/sstoica2/conda/envs/tr_papo_ex/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1739, in _wrapped_call_impl
return self._call_impl(*args, **kwargs)
File "/shared/nas/data/m1/sstoica2/conda/envs/tr_papo_ex/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1750, in _call_impl
return forward_call(*args, **kwargs)
File "/shared/nas/data/m1/sstoica2/.cache/huggingface/modules/transformers_modules/b48cc1d23a4e8a570bd19e777d9e08cc5eb8ff28/modeling_intern_vit.py", line 291, in forward
hidden_states = hidden_states + self.drop_path1(self.attn(self.norm1(hidden_states).to(hidden_states.dtype)) * self.ls1)
File "/shared/nas/data/m1/sstoica2/conda/envs/tr_papo_ex/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1739, in _wrapped_call_impl
return self._call_impl(*args, **kwargs)
File "/shared/nas/data/m1/sstoica2/conda/envs/tr_papo_ex/lib/python3.10/site-packages/torch/nn/modules/module.py", line 1750, in _call_impl
return forward_call(*args, **kwargs)
File "/shared/nas/data/m1/sstoica2/conda/envs/tr_papo_ex/lib/python3.10/site-packages/torch/nn/modules/normalization.py", line 217, in forward
return F.layer_norm(
File "/shared/nas/data/m1/sstoica2/conda/envs/tr_papo_ex/lib/python3.10/site-packages/torch/nn/functional.py", line 2911, in layer_norm
return torch.layer_norm(
RuntimeError: The tensor has a non-zero number of elements, but its data is not allocated yet.
If you're using torch.compile/export/fx, it is likely that we are erroneously tracing into a custom kernel. To fix this, please wrap the custom kernel into an opaque custom op. Please see the following for details: https://pytorch.org/tutorials/advanced/custom_ops_landing_page.html
If you're using Caffe2, Caffe2 uses a lazy allocation, so you will need to call mutable_data() or raw_mutable_data() to actually allocate memory.
I have tried the solution you proposed of freezing the image tower, but the issue persists. I have tried other processors like InternVLProcessor from transformers and the InternVLProcessor from vllm, but that does not fix the issue.
Do you have any suggestions? Note: the verl version you are using is more than three months newer.
My environment is: absl-py 2.3.1 accelerate 1.9.0 addict 2.4.0 aiofiles 23.2.1 aiohappyeyeballs 2.6.1 aiohttp 3.12.14 aiosignal 1.4.0 airportsdata 20250706 annotated-types 0.7.0 antlr4-python3-runtime 4.9.3 anyio 4.9.0 appdirs 1.4.4 argon2-cffi 23.1.0 argon2-cffi-bindings 21.2.0 arrow 1.3.0 astor 0.8.1 asttokens 3.0.0 astunparse 1.6.3 async-timeout 5.0.1 attrs 25.3.0 audioread 3.0.1 av 14.4.0 beautifulsoup4 4.13.3 blake3 1.0.5 boltons 25.0.0 cachetools 6.1.0 certifi 2025.7.14 cffi 1.17.1 charset-normalizer 3.4.2 click 8.2.1 cloudpickle 3.1.1 codetiming 1.4.0 comm 0.2.2 compressed-tensors 0.9.3 cupy-cuda12x 13.5.1 cycler 0.12.1 datasets 4.0.0 dds-cloudapi-sdk 0.3.3 debugpy 1.8.13 decorator 5.2.1 defusedxml 0.7.1 Deprecated 1.2.18 depyf 0.18.0 detectron2 0.6 dill 0.3.8 diskcache 5.6.3 distro 1.9.0 dnspython 2.7.0 docker 7.1.0 docstring_parser 0.16 einops 0.8.1 email_validator 2.2.0 exceptiongroup 1.3.0 executing 2.2.0 fastapi 0.116.1 fastapi-cli 0.0.8 fastapi-cloud-cli 0.1.4 fastjsonschema 2.21.1 fastrlock 0.8.3 filelock 3.18.0 fire 0.7.0 FLAML 2.3.4 flash-attn 2.7.4.post1 flashinfer-python 0.2.5+cu124torch2.6 flatbuffers 25.2.10 fqdn 1.5.1 frozenlist 1.7.0 fsspec 2024.6.1 ftfy 6.3.1 future 1.0.0 fvcore 0.1.5.post20221221 gast 0.6.0 gguf 0.17.1 gitdb 4.0.12 GitPython 3.1.44 google-pasta 0.2.0 googleapis-common-protos 1.70.0 groovy 0.1.2 grpcio 1.73.1 h11 0.16.0 h5py 3.14.0 hf-xet 1.1.5 httpcore 1.0.9 httptools 0.6.4 httpx 0.28.1 huggingface-hub 0.34.3 hydra-core 1.3.2 idna 3.10 importlib_metadata 8.0.0 interegular 0.3.3 iopath 0.1.9 ipykernel 6.29.5 ipython 8.33.0 isoduration 20.11.0 jedi 0.19.2 jieba 0.42.1 Jinja2 3.1.6 jiter 0.8.2 jsonschema 4.25.0 jsonschema-specifications 2025.4.1 jupyter_client 8.6.3 jupyter_core 5.7.2 jupyter-events 0.12.0 jupyter-kernel-gateway 3.0.1 jupyter_server 2.15.0 jupyter_server_terminals 0.5.3 jupyterlab_pygments 0.3.0 keras 3.10.0 lark 1.2.2 lazy_loader 0.4 libclang 18.1.1 librosa 0.11.0 liger_kernel 0.6.0 llguidance 0.7.30 llvmlite 0.44.0 lm-format-enforcer 0.10.11 Markdown 3.8.2 markdown-it-py 3.0.0 MarkupSafe 2.1.5 mathruler 0.1.0 matplotlib-inline 0.1.7 mdurl 0.1.2 mistral_common 1.8.1 mistune 3.1.2 ml_dtypes 0.5.1 mpmath 1.3.0 msgpack 1.1.1 msgspec 0.19.0 multidict 6.6.3 multiprocess 0.70.16 mypy-extensions 1.0.0 namex 0.1.0 nbclient 0.10.2 nbconvert 7.16.6 nbformat 5.10.4 nest-asyncio 1.6.0 networkx 3.3 ninja 1.13.0 numba 0.61.2 numpy 2.1.2 nvidia-cublas-cu12 12.4.5.8 nvidia-cuda-cupti-cu12 12.4.127 nvidia-cuda-nvrtc-cu12 12.4.127 nvidia-cuda-runtime-cu12 12.4.127 nvidia-cudnn-cu12 9.1.0.70 nvidia-cufft-cu12 11.2.1.3 nvidia-cufile-cu12 1.11.1.6 nvidia-curand-cu12 10.3.5.147 nvidia-cusolver-cu12 11.6.1.9 nvidia-cusparse-cu12 12.3.1.170 nvidia-cusparselt-cu12 0.6.2 nvidia-nccl-cu12 2.21.5 nvidia-nvjitlink-cu12 12.4.127 nvidia-nvtx-cu12 12.4.127 omegaconf 2.3.0 open_clip_torch 2.30.0 openai 1.97.0 opencv-python-headless 4.12.0.88 opentelemetry-api 1.26.0 opentelemetry-exporter-otlp 1.26.0 opentelemetry-exporter-otlp-proto-common 1.26.0 opentelemetry-exporter-otlp-proto-grpc 1.26.0 opentelemetry-exporter-otlp-proto-http 1.26.0 opentelemetry-proto 1.26.0 opentelemetry-sdk 1.26.0 opentelemetry-semantic-conventions 0.47b0 opentelemetry-semantic-conventions-ai 0.4.11 opt_einsum 3.4.0 optree 0.17.0 orjson 3.11.0 outlines 0.1.11 outlines_core 0.1.26 overrides 7.7.0 packaging 25.0 pandas 2.3.1 pandocfilters 1.5.1 PAPO 0.1.0 /shared/nas/data/m1/sstoica2/PAPO_integrated parso 0.8.4 partial-json-parser 0.2.1.1.post6 pathspec 0.12.1 peft 0.16.0 pillow 11.0.0 pip 25.2 platformdirs 4.3.8 pooch 1.8.2 portalocker 3.1.1 prometheus_client 0.21.1 prometheus-fastapi-instrumentator 7.1.0 prompt_toolkit 3.0.50 propcache 0.3.0 protobuf 4.25.8 psutil 7.0.0 pure_eval 0.2.3 py-cpuinfo 9.0.0 pyarrow 21.0.0 pyautogen 0.2.26 pycountry 24.6.1 pycparser 2.22 pydantic 2.11.7 pydantic_core 2.33.2 pydantic-extra-types 2.10.5 pydot 3.0.4 pydub 0.25.1 Pygments 2.19.1 pylatexenc 2.10 python-dateutil 2.9.0.post0 python-dotenv 1.0.1 python-json-logger 3.2.1 python-multipart 0.0.20 pytz 2025.2 pyvers 0.1.0 PyYAML 6.0.2 pyzmq 26.2.1 qwen-vl-utils 0.0.11 ray 2.48.0 referencing 0.36.2 regex 2024.11.6 requests 2.32.4 rfc3339-validator 0.1.4 rfc3986-validator 0.1.1 rich 13.9.4 rich-toolkit 0.14.8 rignore 0.6.4 rouge-chinese 1.0.3 rpds-py 0.26.0 ruff 0.9.9 safehttpx 0.1.6 safetensors 0.5.3 scipy 1.15.3 semantic-version 2.10.0 Send2Trash 1.8.3 sentencepiece 0.2.0 sentry-sdk 2.33.0 setuptools 80.9.0 shellingham 1.5.4 shtab 1.7.2 six 1.17.0 smmap 5.0.2 sniffio 1.3.1 soundfile 0.13.1 soupsieve 2.6 soxr 0.5.0.post1 sse-starlette 2.3.6 stack-data 0.6.3 starlette 0.47.1 supervision 0.25.1 sympy 1.13.1 tabulate 0.9.0 tensorboard 2.19.0 tensorboard-data-server 0.7.2 tensordict 0.9.1 tensorflow 2.19.0 tensorflow-io-gcs-filesystem 0.37.1 termcolor 2.5.0 terminado 0.18.1 tiktoken 0.9.0 timm 1.0.19 tinycss2 1.4.0 tokenizers 0.21.2 toml 0.10.2 tomlkit 0.13.2 torch 2.6.0+cu124 torchao 0.12.0 torchaudio 2.6.0+cu124 torchdata 0.11.0 torchvision 0.21.0+cu124 tornado 6.4.2 tqdm 4.67.1 traitlets 5.14.3 transformers 4.52.2 triton 3.2.0 trl 0.9.6 typer 0.15.2 types-python-dateutil 2.9.0.20241206 typing_extensions 4.12.2 typing-inspection 0.4.1 tyro 0.8.14 tzdata 2025.2 UNKNOWN 0.0.0 uri-template 1.3.0 urllib3 2.5.0 uvicorn 0.35.0 uvloop 0.21.0 vllm 0.8.4 wandb 0.21.0 watchfiles 1.1.0 wcwidth 0.2.13 webcolors 24.11.1 webencodings 0.5.1 websocket-client 1.8.0 websockets 15.0.1 Werkzeug 3.1.3 wheel 0.45.1 wrapt 1.17.2 xformers 0.0.29.post2 xgrammar 0.1.18 xxhash 3.5.0 yacs 0.1.8 yarl 1.20.1 zipp 3.23.0
Please advise, how should I merge the trained Gemma3 weights? I currently encounter an error: ValueError: Unrecognized configuration class <class 'transformers.models.gemma3.configuration_gemma3.Gemma3Config'> for this kind of AutoModel: AutoModelForVision2Seq. I don't know how to solve it, could you give me some guidance?
have you solved this problem? @dle666